Enrichment of methylated DNA followed by sequencing offers a reasonable compromise between experimental cost and genomic coverage, allowing genome- wide DNA methylation to be assessed for large numbers of samples, which is a common requirement for clinical studies. However, the computational analysis of these experiments is complex, and depends on specific normalization and statistical approaches. Furthermore, quantification of the enrichment signals in terms of absolute levels of methylation requires specific transformation. In this dissertation, I introduce specific computational methods for the individual steps of the analysis workflow. I assess the impact of sequencing library size, alterations in DNA copy number and CpG density on the local enrichment, and present a suitable normalization procedure. As the central part of the workflow, I developed a statistical model for the enrichment read counts, which is deployed in the Bayesian estimation of absolute levels of methylation. The model involves experimental parameters, such as sample specific enrichment characteristics. Accounting for different levels of prior knowledge, I suggest several calibration strategies for the model's parameters, which use either additional data or certain general assumptions. The transformation to absolute methylation levels greatly enhances interpretability and facilitates comparison with other methylation assays. By comparing the results with bisulfite sequencing validation data, I demonstrate the accuracy of the transformation, as well as the improvement over existing alternative methods. A common objective of methylome analysis is the detection of differentially methylated regions between groups of samples. I compare different statistical approaches for this task and discuss the inherent properties. I thereby identify likelihood ratio tests of nested generalized linear models to be well suited in terms of reliability and efficiency. The methods are implemented in two different R/bioconductor packages, MEDIPS and QSEA, which are easy to use and provide comprehensive functionality for the analysis of enrichment based experiments. All functions are documented and demonstrated by runnable examples, as well as detailed tutorials for specific practically relevant use cases. By presenting four representative studies published in peer-reviewed journals, I demonstrate the applicability and the versatility of the introduced methods. Taken together, this dissertation provides new computational methods for the analysis of enrichment based methylation experiments; these methods enhance the interpretability and reliability of the results from these experiments.
Hochdurchsatzsequenzierung von angereicherter methylierter DNS erlaubt genomweite Methylierungsmessung zu relativ günstigen Kosten, wodurch die Analyse von zahlreichen Proben, zum Beispiel für klinische Studien, ermöglicht wird. Die computergestützte statistische Auswertung dieser Experimente ist jedoch komplex, und bedarf spezieller Normalisierungsmethoden und Schätzverfahren. In dieser Dissertation stelle ich spezifische computergestützte Methoden für die einzelnen Analyseschritte der Auswertung vor. Ich untersuche den Einfluss von Sequenziertiefe, Amplifikationen oder Deletationen der DNS, sowie der Häufigkeit von CpGs auf die Anreicherung der entsprechenden genomischen Region, und führe ein geeignetes Normalisierungsverfahren ein. Als zentralen Analyseschritt rekonstruiere ich das absolute Methylierungsniveau aus der relativen Anreicherung mittels Bayes'schen Schätzern. Hierfür habe ich ein statistisches Modell der angereicherten sequenzierten DNS-Fragmente entwickelt. Abhängig vom Vorwissen über die Proben schlage ich verschiedene Kalibrierungsstrategien für die probenspezifischen Anreicherungsparameter des Modells vor, basierend auf zusätzlichen Daten oder allgemeinen Annahmen. Die Umwandlung in absolute Methylierungswerte erhöht die Interpretierbarkeit erheblich und erleichtert den Vergleich mit anderen Methylierungsexperimenten. Durch Vergleich der Ergebnisse mit Bisulfit-Sequenzierung Validierungsdaten zeige ich die Schätzgenauigkeit des Verfahrens sowie die Verbesserung gegenüber bestehender alternativer Methoden. Ein häufiges Ziel der Methylomanalyse ist der Nachweis von differentiell methylierten Regionen zwischen Probengruppen. Ich vergleiche verschiedene statistische Ansätze für diesen Schritt und zeige diesbezüglich die Eignung von Likelihood-Quotienten-Tests geschachtelter generalisierter linearer Modelle hinsichtlich Zuverlässigkeit und Effizienz. Die vorgestellten Methoden sind in zwei R / Bioconductor-Paketen implementiert, MEDIPS und QSEA. Die Pakete sind einfach zu bedienen bieten umfassende Funktionalität. Alle Funktionen sind dokumentiert und werden mittels anschaulichen Beispiele, sowie ausführlichen Tutorials zu spezifischen praktisch relevanten Anwendungsfällen veranschaulicht. Vier vorgestellte repräsentative Studien, welche in wissenschaftlichen Fachzeitschriften veröffentlicht wurden, demonstrieren die praktische Anwendbarkeit und die Vielseitigkeit der eingeführten Methoden. Zusammengefasst bietet diese Dissertation neue computergestützte Methoden zur Analyse anreicherungsbasierter Methylierungsexperimente, welche sowohl die Interpretierbarkeit als auch die Zuverlässigkeit der Ergebnisse solcher Experimente erhöhen.