Within the body, every cell contains the same genetic blueprint, the DNA, which is wrapped around histones and densely packed in the nucleus. Given the same genome, the identity of each cell is in part defined by modifications to the histones but also the genomic sequence itself, such as DNA methylation, that define active and inactive parts of the DNA. In somatic cells, DNA methylation levels are largely bimodal, with a high genome-wide methylation average that predominantly excludes CpG islands (CGIs), features often found near gene promoters that remain free of methylation. These patterns change across the majority of human cancer types, which exhibit global loss of methylation accompanied by a gain of methylation at select CGIs. To date, bisulfite sequencing represents the gold-standard method to profile DNA methylation at single-base resolution and has been widely used to characterize and understand DNA methylation landscapes in healthy and tumor cells. This thesis presents advancements in the computational analysis of bisulfite sequencing data sets, as well as applications to large-scale studies of DNA methylation in cancer. It showcases the adaptation of a local alignment tool to enable homology search for bisulfite-converted sequences, which outperforms established semi-global alignment tools when applied to the search of metagenomic data sets. Additionally, this thesis describes the development of a new application that provides fast and simplified extraction of DNA methylation heterogeneity metrics from single reads of bisulfite sequencing data. The importance of such metrics is demonstrated in the context of two studies that focus on DNA methylation changes within primary tumors and cancer cell lines. Single-read metrics and single-cell methylome profiling show that primary tumors are mainly characterized by heterogeneous, intermediate global and CGI DNA methylation that is intrinsic to the underlying single tumor cells. In contrast, cancer cell lines mostly assume one of two different states, where global DNA methylation levels are either drastically decreased or comparable to healthy tissues, while CGIs become almost fully methylated in both scenarios. Although rarely seen in solid tumors, extremely high genome-wide methylation levels can also be observed in an exceptional primary tumor type, acute lymphoblastic leukemia, where this landscape is influenced by specific epigenetic regulators. Together, the findings of this thesis advance our ability to analyze bisulfite sequencing data sets as well as to apply these more nuanced measurements to understand DNA methylation changes during tumorigenesis and in culture.
Im Körper enthält jede Zelle denselben genetischen Bauplan, die DNA, die um Histone gewickelt und dicht gepackt im Zellkern liegt. Aufgrund des gleichen Genoms wird die Identität jeder Zelle zum Teil durch Veränderungen an den Histonen, aber auch an der Genomsequenz selbst, wie zum Beispiel durch DNA-Methylierung, bestimmt. Diese Modifikationen legen aktive und inaktive Teile der DNA fest. In somatischen Zellen ist die DNA-Methylierung weitgehend bimodal verteilt, mit einem hohen genomweiten Methylierungsdurchschnitt und der Ausnahme von CpG-Inseln (CGI), die häufig in der Nähe von Genpromotoren zu finden sind und frei von Methylierung bleiben. Diese Muster ändern sich bei den meisten menschlichen Krebstypen, die einen globalen Methylierungsverlust bei gleichzeitiger Zunahme der Methylierung an ausgewählten CGIs aufweisen. Bis heute ist die Bisulfit-Sequenzierung der Goldstandard für die Erstellung von DNA-Methylierungsprofilen und wird häufig zur Charakterisierung und zum Verständnis von DNA-Methylierungslandschaften in gesunden und Tumorzellen eingesetzt. In dieser Arbeit werden Fortschritte bei der rechnergestützten Analyse von Bisulfit-Sequenzierungsdatensätzen sowie deren Anwendung in groß angelegten Studien zur DNA-Methylierung bei Krebs vorgestellt. Sie zeigt die Anpassung eines lokalen Alignment-Tools, um eine Homologiesuche für Bisulfit-konvertierte Sequenzen zu ermöglichen, die etablierte semi-globale Alignment-Tools übertrifft, wenn sie bei der Suche von metagenomischen Datensätzen angewendet wird. Darüber hinaus wird in dieser Arbeit die Entwicklung einer neuen Anwendung beschrieben, die eine schnelle und vereinfachte Extraktion von Metriken der Heterogenität von DNA-Methylierung aus einzelnen Reads von Bisulfit-Sequenzierungsdaten ermöglicht. Die Bedeutung solcher Metriken wird im Rahmen von zwei Studien demonstriert, die sich auf DNA-Methylierungsveränderungen in Tumoren und Krebszelllinien konzentrieren. Einzel-Read-Metriken und die Erstellung von Einzelzell-Methylom-Profilen zeigen, dass primäre Tumore hauptsächlich durch heterogene, intermediäre globale und CGI DNA-Methylierung gekennzeichnet sind. Diese betrifft nicht nur den Durchschnitt sondern auch die zugrunde liegenden einzelnen Tumorzellen. Im Gegensatz dazu nehmen Krebszelllinien meist einen von zwei verschiedenen Zuständen an, bei denen das globale DNA-Methylierungsniveau entweder drastisch verringert oder mit der von gesundem Gewebe vergleichbar ist, während die CGIs in beiden Szenarien fast vollständig methyliert sind. Obwohl extrem hohe genomweite Methylierungsniveaus in soliden Tumoren selten zu finden sind, können diese in einem außergewöhnlichen primären Tumortyp, der akuten lymphoblastischen Leukämie, beobachtet werden. Hier wird diese Landschaft durch spezifische epigenetische Regulatoren beeinflusst. Insgesamt verbessern die Ergebnisse dieser Arbeit unsere Fähigkeit, Bisulfit-Sequenzierungsdatensätze zu analysieren und diese differenzierteren Messungen anzuwenden, um DNA-Methylierungsveränderungen während der Tumorentstehung und in Zellkulturen zu verstehen.