The rapid proliferation of single-cell RNA-seq data requires novel algorithms for identifying cell types and their defining marker genes. While clustering algorithms aim to discover biologically meaningful cell groups, most require prior knowledge of the number of cluster and fail to identify cluster-specific genes. The absence of a consensus definition for cell types further underscores the need for transparent algorithms that explicitly report the genes driving their clustering decisions. Current workflows require separate downstream analyses to identify marker genes and annotate cells. However, this approach reuses the same data for both clustering and statistical testing, potentially inflating the statistical significance of p-values. Moreover, researchers routinely assess clustering quality using non-linear dimensionality reduction methods like UMAP or t-SNE, whose embeddings can distort the true cluster structure of the data and vary substantially with hyperparameter choices.
This thesis introduces CAbiNet and CAdir, two methods that aim to solve these problems by simultaneously clustering cells and their marker genes by leveraging the properties of correspondence analysis (CA). This biclustering approach circumvents statistical issues arising from data reuse, while providing intuitive insights into the cell clustering through the co-clustered marker genes. Because they are specifically designed for sparse scRNA-seq data, both methods outperform existing biclustering tools and provide visualizations for interpreting and evaluating results. CAbiNet unfolds the data manifold using a cell-gene graph on which a joint clustering of cells and genes can be performed. CAbiNet's unique graph combining cells and genes is ideally suited to unraveling complex non-linear cell-gene relationships as well as developmental or differentiation trajectories. The same graph can then be visualized in a two-dimensional embedding, called biMAP, in which both cells and genes can be plotted and which highlights the relationship between marker genes and their respective clusters. CAdir, on the other hand, exploits the geometry induced by CA to cluster cells and their marker genes based on the directions they lie in CA space. This approach enables extremely fast biclustering of cells and genes and can therefore be applied to even cell atlas-sized datasets. The angle between directions can be used to dynamically determine the number of clusters in the data in an almost parameter-free manner without user intervention. Because CAdir clusters based on directions in CA space, Association Plots can be used to directly visualize each cluster direction to assess cluster quality and to discover cluster specific marker genes based on the embedding. We demonstrate for both methods how they can be used to generate biologically meaningful insights on real, experimental datasets. Finally, in comprehensive benchmarks, CAbiNet and CAdir are compared to other state-of-the-art clustering and biclustering methods, highlighting their competitiveness and versatility in clustering a wide variety of datasets.
Die rasante Adoption von scRNA-seq Daten erfordert neue Algorithmen zur Identifizierung von Zelltypen und ihren definierenden Markergenen. Während Clustering-Algorithmen darauf abzielen, biologisch bedeutsame Zellgruppen zu entdecken, erfordern die meisten von ihnen Vorwissen über die Anzahl der Cluster und sind nicht in der Lage, clusterspezifische Gene zu identifizieren. Das Fehlen einer einheitlichen Definition für Zelltypen unterstreicht weiters die Notwendigkeit transparenter Algorithmen, die exakt jene Gene ausgeben, welche die Clustering-Entscheidungen des Algorithmus maßgeblich beeinflusst haben. Aktuelle Arbeitsabläufe erfordern separate, nachgelagerte Analysen, um Markergene zu identifizieren und Zellen zu annotieren. Dieser Ansatz verwendet jedoch dieselben Daten sowohl für das Clustering als auch für statistische Tests, was künstlich kleine p-Werte zur Folge haben kann. Darüber hinaus bewerten Forscher die Clustering-Qualität routinemäßig mit nichtlinearen Methoden zur Dimensionsreduktion, wie zum Beispiel UMAP oder t-SNE, deren Einbettungen je nach Wahl der Hyperparameter erheblich variieren und die tatsächliche Clusterstruktur der Daten verzerren können.
Diese Arbeit stellt CAbiNet und CAdir vor, zwei Methoden die darauf abzielen diese Probleme zu lösen, indem sie die Eigenschaften der Korrespondenzanalyse (CA) nutzen um Zellen und ihre Markergene gleichzeitig zu clustern. Dieser Biclustering Ansatz umgeht statistische Probleme, die sich aus der Wiederverwendung von Daten ergeben und liefert gleichzeitig intuitive Einblicke in das Zell-Clustering durch die gemeinsam geclusterten Markergene. Beide Methoden wurden speziell für dünnbesetzte scRNA-seq Daten entwickelt und übertreffen bestehende Biclustering-Tools in unserem Benchmarking, während sie gleichzeitig Visualisierungen zur Interpretation und Bewertung der Ergebnisse bieten. CAbiNet entfaltet die Datenmannigfaltigkeit mithilfe eines Zell-Gen-Graphen, auf dem ein gemeinsames Clustering von Zellen und Genen durchgeführt werden kann. Der einzigartige Graph von CAbiNet der Zellen und Gene kombiniert, eignet sich ideal, um komplexe nichtlineare Zell-Gen-Beziehungen sowie Entwicklungs- oder Differenzierungsverläufe zu entschlüsseln. Derselbe Graph kann dann in einer zweidimensionalen Einbettung, biMAP genannt, visualisiert werden, in der sowohl Zellen als auch Gene dargestellt werden können und die die Beziehung zwischen Markergenen und ihren jeweiligen Clustern hervorhebt. CAdir hingegen nutzt die durch CA induzierte Geometrie, um Zellen und ihre Markergene basierend auf deren Richtung im CA-Raum zu clustern. Dieser Ansatz ermöglicht ein extrem schnelles Biclustering von Zellen und Genen und kann daher sogar auf Datensätze in der Größe eines Zellatlas angewendet werden. Der Winkel zwischen den Cluster-Richtungen kann verwendet werden, um die Anzahl der Cluster in den Daten auf dynamische Weise ohne Benutzereingriff und ohne zusätzliche Parameter zu bestimmen. Da CAdir auf der Grundlage von Richtungen im CA-Raum clustert, können Association Plots verwendet werden um jede Clusterrichtung direkt zu visualisieren, was eine Qualitätsbewertung der Cluster und die Entdeckung von Markergenen auf der Grundlage der Visualisierung ermöglicht. Wir zeigen für beide Methoden, wie sie verwendet werden können um biologisch aussagekräftige Erkenntnisse aus realen, experimentellen Datensätzen zu gewinnen. Schließlich werden CAbiNet und CAdir in umfassenden Benchmarks mit anderen state-of-the-art Clustering- und Biclustering-Methoden verglichen, wobei ihre Leistungsfähigkeit und Flexibilität beim Clustering einer Vielzahl unterschiedlicher Datensätze hervorgehoben wird.