A re-occurring problem in transcriptomics data analysis is the search for associations between clusters of conditions and the highly expressed genes these conditions share. Approaches to solve this problem occur in many forms, for instance, biclustering or the search for marker genes. While for small data sets identification of marker genes is fairly easy, for complex data sets such as single-cell RNA-seq it poses a significant challenge to analysis and visualization methods currently available. In particular, low-dimensional data representation methods such as principal component analysis (PCA) lead to information loss, as they do not show information contained in higher dimensions.
In this thesis, we address this problem by presenting Association Plots (APs), a novel method for determining and visualizing cluster-specific genes in high-dimensional data. APs are derived from correspondence analysis (CA), a projection method similar to PCA, which however enables the joint embedding of genes and conditions. In such an embedding, genes associated to a cluster of conditions lie in a particular direction in high-dimensional space. Measuring distances between genes and conditions leads to APs which are independent of the data dimensionality and can aid in delineating marker genes.
We present the application of APs to bulk- and single-cell RNA-seq data through several examples. First, we show the identification of marker genes using APs on Genotype Tissue Expression (GTEx) and 3k Peripheral Blood Mononuclear Cell (PBMC) data. Next, we present how APs aid in cell cluster annotation using a predefined list of marker genes on human cell atlas of fetal gene expression data. Simultaneously, we also demonstrate how to apply APs for studying similarities between clusters from the data, and we compare results from APs to results from existing differential expression testing tools. Finally, we demonstrate APL, the developed Bioconductor R package and shiny app. APL implements the concept of APs and is integrated with the Gene Ontology enrichment tool.
Ein immer wiederkehrendes Problem bei der Analyse von Transkriptomdaten ist die Suche nach Assoziationen zwischen Clustern von Bedingungen und den dazugehörigen hochexprimierten Genen. Ansätze für dieses Problem gibt es in vielen Formen, wie zum Beispiel bei dem Biclustering oder bei der Suche nach Markergenen. Während die Identifizierung von Markergenen bei kleinen Datensätzen relativ einfach ist, stellt sie bei komplexen Datensätzen wie Einzelzell RNA-seq Experimenten eine erhebliche Herausforderung für die derzeit verfügbaren Analyse- und Visualisierungsmethoden dar. Insbesondere, Methoden zur Darstellung niedrigdimensionaler Daten wie die Hauptkomponentenanalyse (PCA) führen zu Informationsverlusten, da sie die in den höheren Dimensionen enthaltenen Informationen nicht anzeigen.
In dieser Arbeit wird dieses Problem durch die Einführung von Association Plots (APs), einer neuartigen Methode zur Bestimmung und Visualisierung von clusterspezifischen Genen in hochdimensionalen Daten, angegangen. APs werden von der Korrespondenzanalyse (CA) abgeleitet, einer Projektionsmethode ähnlich der PCA, die jedoch eine gemeinsame Einbettung von Genen und Bedingungen ermöglicht. Bei einer solchen Einbettung liegen Gene, die mit einem Cluster von Bedingungen assoziiert sind, zusammen in einer bestimmten Richtung im hochdimensionalen Raum. Die Messung der Abstände zwischen Genen und den dazugehörigen Bedingungen führt zu APs, die unabhängig von der Dimensionalität der Daten sind und bei der Identifikation von Markergenen helfen können.
Wir präsentieren die Anwendung von APs auf populationsbasierenden- und Einzelzell RNA-seq-Daten. Zunächst wird die Identifizierung von Markergenen mithilfe von APs am Beispiel von Genotype Tissue Expression (GTEx) und 3k Peripheral Blood Mononuclear Cell (PBMC)-Daten vorgestellt. Als Nächstes zeigen wir, wie APs bei der Annotation von Zellclustern zu bereits bekannten Zellidentitäten helfen, indem wir eine vordefinierte Liste von Markergenen am Beispiel des Zellatlases menschlicher fetaler Genexpressionsdaten verwenden. Gleichzeitig demonstrieren wir, wie APs zur Untersuchung von Ähnlichkeiten zwischen Clustern aus den Daten eingesetzt werden können und vergleichen die Ergebnisse von APs mit den Ergebnissen bestehender Tools zur differenziellen Genexpressionsanalyse. Abschließend demonstrieren wir APL, das entwickelte Bioconductor R-Paket und die Shiny App. APL implementiert das Konzept der APs und ist mit einer Uberprüfung von Gene Ontology Begriffen ausgestattet.