The advances of single-cell transcriptomics enable a plethora of new analytical approaches but also challenges. One of the main difficulties in single-cell RNA-seq data is to differentiate between the unwanted technical and desired biological variability across cells. In the first part of the thesis we show how to assess the technical variability in both experimental single-cell RNA-seq data and in a simulated framework that we established by downsampling single cells from bulk reference samples. In the course of this study we show how bulk RNA-seq samples can be integrated in a pre-computed topology trained on single cells. Furthermore we reveal biases in similarity measures between the derived samples that strongly depend on the gene detection rate of an experiment. In the second part we focus on how to interpret cellular variability by predicting regulatory interactions between genes in the context of network reconstruction. We implement the neighborhood selection method that uses a two-fold model selection criteria for parameter estimation. We apply the method on data generated in silico exhibiting different developmental trajectories commonly seen in single-cell biology. We dynamically infer time-dependent gene regulatory networks evolving through the course of temporally ordered trajectory and revealing active gene regulations in a particular time-frame. Furthermore, we systematically evaluate the effect of data imputation on gene regulatory network reconstruction. We observe an inflation of gene-gene correlations after data imputation that affects the predicted network structures and may decrease the performance of network reconstruction in general. Altogether this thesis provides insights about how to deal with the observed heterogeneity and how it can be used to infer regulatory associations between genes using single-cell transcriptome data.
Mit dem Fortschritt in der Einzelzell-Transkriptombiologie ergeben sich viele Möglichkeiten verschiedenster und neuer analytischen Konzepte zur Beantwortung biologischer Fragestellungen. Zeitgleich birgt diese aber auch viele Herausforderungen. Eine der Hauptschwierigkeiten bei Einzelzell-Transkriptomdaten ist die Differenzierung zwischen der technischen und der biologischen Variabilität in Zellpopulationen. Ersteres ist artifiziell und sollte daher bei den Analysen außer Acht gelassen werden. Im ersten Teil der Arbeit wird gezeigt, wie die technische Variabilität sowohl in experimentellen Einzelzell-Transkriptomdaten als auch in einem etablierten simulierten Datenmodell gemessen werden kann. In dem simulierten Datenmodell werden Einzelzellen aus einer populationsbasierten Referenzprobe abgeleitet und auf verschiedene statistische Eigenschaften untersucht. Im Verlauf dieser Studie wird aufgezeigt, wie klassische, populationsbasierte Transkriptomproben in eine vorberechnete, auf Einzelzellen trainierte Topologie integriert werden können. Darüber hinaus werden verschiedene Ähnlichkeitsmaße zwischen den abgeleiteten Proben betrachtet und Verzerrungen beobachtet, die stark von der Gendetektionsrate eines Experiments abhängen. Der Fokus des zweiten Teils der Arbeit liegt auf der Interpretation der zellulären Variabilität durch die Vorhersage von regulatorischen Interaktionen zwischen Genen im Kontext der Netzwerkrekonstruktion. Die implementierte Methode neighborhood selection verwendet ein zweifaches Auswahlkriterium, um einen geeigneten Parameter für die Netzwerkrekonstruktion zu schätzen. Deren Anwendung findet auf Daten statt, die in silico generiert wurden und unterschiedliche, in der Einzellzellbiologie üblich vorkommende Zelldifferenzierungsverläufe aufweisen. Unter Hinzuziehung der Daten werden dynamische, genregulatorische Netzwerke abgeleitet, die sich im Laufe einer zeitlich geordneten Trajektorie entwickeln und aktive Genregulationen in einem bestimmten Zeitrahmen offenbaren. Darüber hinaus liefert die Arbeit eine systematische Evaluierung über die Auswirkungen der Datenimputation auf die Rekonstruktion genregulatorischer Netzwerke. Es wird eine inflationäre Zunahme der Gen-Gen-Korrelationswerte nach der Datenimputation beobachtet, die sich auf die vorhergesagten Netzwerkstrukturen auswirkt und die Prognosefähigkeit der Netzwerkrekonstruktion im Allgemeinen mindern kann. Insgesamt liefert diese Arbeit Erkenntnisse darüber, wie mit der beobachteten Heterogenität in Einzelldaten umzugehen ist und wie sie genutzt werden kann, um aus Einzelzell-Transkriptomdaten zuverlässiger auf Assoziationen zwischen Genen schließen zu können.