The accessibility of chromatin is a prerequisite for regulatory elements in a cell to carry out their role in gene regulation in a dynamic and cell type-specific manner. Various methods have been developed to investigate the accessibility of chromatin. Initially, techniques were developed for an entirety of cells (“bulk”), but with technological progress, methods were also developed to determine the accessibility of chromatin at the single-cell level. One of the popular techniques to measure chromatin accessibility at single-cell resolution is scATAC-seq. While the resulting data holds promising insights for unraveling the heterogeneity that bulk measurements cannot capture, annotating cell types in scATAC-seq data remains a challenging task. Current methods typically translate the accessibility of a gene to its expression levels and rely on methods developed for scRNA-seq data for cell-type annotation. Given that gene expression is regulated in a highly complex manner, this assumption may not always hold true and does not fully exploit the unique characteristics of the scATAC-seq modality. In this thesis, we developed a novel method for cell-type annotation in scATAC-seq datasets that we call scATAcat. Our method leverages a large number of characterized bulk ATAC-seq data to annotate scATAC-seq data without relying on biological assumptions. When compared to existing methods across various datasets, scATAcat demonstrates better or comparable performance. Although the main focus of this thesis is on cell-type annotation in scATAC-seq data, we also discuss and provide a comprehensive guide to other challenges in scATAC-seq data analysis.
Die Zugänglichkeit von Chromatin ist eine Voraussetzung dafür, dassregulatorische Elemente in einer Zelle auf dynamische und zelltypspezifische Weise ihre Rolle in der Genregulation ausführen können. Es wurden verschiedene Methoden entwickelt, um die Zugänglichkeit von Chromatin zu untersuchen. Nachdem zuerst Techniken für eine Gesamtheit von Zellen (“bulk”) entwickelt wurden, folgten mit dem technologischen Fortschritt auch Verfahren, die die Zugänglichkeit des Chromatins auf Einzelzellebene bestimmen. Eine der populärsten Techniken zur Messung der Chromatinzugänglichkeit bei Einzelzellen ist scATAC-seq. Während die daraus resultierenden Daten vielversprechende Einblicke in die Heterogenität bieten, die durch Bulk-Messungen nicht erfasst werden kann, bleibt die Annotation von Zelltypen in scATAC-seq-Daten eine schwierige Aufgabe. Derzeitige Methoden übersetzen in der Regel die Zugänglichkeit eines Gens in sein Expressionsniveau und stützen sich dabei auf Methoden, die für scRNA-seq-Daten zur Zelltyp-Annotation entwickelt wurden. Da die Genexpression auf hochkomplexe Weise reguliert wird, ist diese Annahme nicht immer zutreffend und nutzt die einzigartigen Eigenschaften der scATAC-seq-Modalität nicht vollständig aus. In dieser Arbeit haben wir eine neue Methode zur Zelltyp-Annotation in scATAC-seq-Datensätzen entwickelt, die wir scATAcat nennen. Unsere Methode nutzt eine große Anzahl von charakterisierten ATAC-seq Daten, um scATAC-seq-Daten zu annotieren, ohne sich auf weitere biologische Annahmen zu stützen. Im Vergleich zu bestehenden Methoden zeigt scATAcat bei verschiedenen Datensätzen bessere oder vergleichbare Resultate. Obwohl der Schwerpunkt dieser Arbeit auf der Zelltyp-Annotation in scATAC-seq-Daten liegt, werden auch andere Herausforderungen bei der Analyse von scATAC-seq-Daten diskutiert und in einem umfassenden Leitfaden dargestellt.