Reversible DNA methylation. i.e. the reversible attachment of a methyl group (CH3) at the 5' position of the pyrimidine derivate cytosine, is an important epigenetic mechanism during early differentiation of human embryonic stem cells (hESCs) and development. Methylated DNA immunoprecipitation (MeDIP) uses an antibody specific for methylated cytosines in order to immunocapture methylated genomic fragments. This technique allows for the enrichment of such DNA fragments that contain increased amounts of methylated cytosines. Subsequently, immunoprecipitated DNA fragments have to be identified and mapped back to their original positions in the reference genome, a process that can be achieved by next-generation sequencing (MeDIP-Seq). Nevertheless, it has been shown that MeDIP derived data needs to be corrected for local CpG densities in order to estimate valid methylation levels. This effect is caused by varying efficiency of antibody binding and immunoprecipitation dependent on the local density of methylated CpG sites. This study provides several novel concepts in the context of MeDIP-Seq data analysis including quality control metrics, MeDIP-Seq data normalization with respect to local sequence compositions, and identification of differential methylation between different conditions. The developed methods have been implemented as a run-time optimized R software library (MEDIPS). Therefore, MEDIPS is the first available standard solution for a comprehensive and reproducible analysis of MeDIP-Seq data. The implementation allows for analyzing sequence data of arbitrary genomes and more then 2 billion short reads from mouse and human have been already successfully processed. By applying MEDIPS to novel MeDIP- Seq data, this study extends the knowledge on genome-wide regulatory modules and the interplay of genetic and epigenetic mechanisms during early endodermal differentiation of human embryonic stem cells and during colon cancer development. By providing the developed methods as the MEDIPS software package, this thesis flattens the existing imbalance between MeDIP-Seq data generation and data analysis.
Reversible DNA Methylierung, d.h. die reversible kovalente Bindung einer CH3 Gruppe an die 5'-Position des Pyrimidinderivats Cytosin, ist ein wichtiger epigenetischer Mechanismus bereits während der frühen Differenzierung humaner embryonaler Stammzellen (hESCs) wie auch im weiteren Verlauf humaner Entwicklung. Methylierte-DNA Immunopräzipitation (MeDIP) macht Gebrauch von einem Antikörper, welcher spezifisch methylierte Cytosine bindet. Durch die anschliessende Fragmentierung der DNA durch z.B. Ultraschallbehandlung, kann mit Hilfe des Antikörpers eine Anreicherung solcher DNA Fragmente erreicht werden, auf denen bevorzugt methylierte Cytosine lokalisiert sind. Hierauf ist es notwendig, die gefällten DNA-Fragmente eindeutig zu identifizeren und deren Position im Referenzgenom zu ermitteln. Dies ist durch die Sequenzierung der gefällten DNA-Fragmente und einem anschliessenden Sequenzvergleich mit dem Referenzgenom möglich (MeDIP-Seq). Nichtsdestotrotz können Methylierungsmuster nicht direkt aus MeDIP-Seq Daten abgeleitet werden, da der verwendete Antikörper eine unterschiedliche Bindungsaffinität in Bereichen unterschiedlicher Konzentrationen methylierter Cytosine aufweist. Die vorliegende Arbeit stellt die erste praktikable Lösung zur Analyse genomweiter Methylierung auf Basis der MeDIP-Seq Technologie vor. Die dargelegten Methoden umfassen unterschiedliche Ansätze zur Qualitätskontrolle der generierten Daten, die Normalisierung der MeDIP-Seq Signale unter Berücksichtigung lokaler Sequenzkompositionen, als auch statistische Verfahren zur Identifizierung differentiell methylierter Regionen zwischen unterschiedlichen biologischen Proben und unter Berücksichtigung globaler Hintergrundsmessungen. Alle entwickelten Methoden wurden in Laufzeit optimierten Implementierungen realisiert und in einem Softwarepaket (MEDIPS) zusammengefasst. MEDIPS ist somit die erste standardisierte Lösung, die eine umfangreiche und reproduzierbare Prozessierung von MeDIP-Seq Daten ermöglicht. Die Implementierung erlaubt die Analyse von Sequenzdaten beliebiger Genome und es wurden bereits über 2 Milliarden Sequenzen aus Mensch und Maus prozessiert. Durch die Anwendung von MEDIPS konnte bereits eine Vielzahl von Methylierungsänderungen während der Differenzierung humaner embryonaler Stammzellen, sowie während der intestinalen Entwicklung von Adnemon bzw. Tumoren in Mäusen und in Darmkrebspatienten identifiziert werden. Durch die Bereitstellung der entwickelten Methoden durch die MEDIPS Software, egalisiert die vorliegende Arbeit das Ungleichgewicht zwischen der MeDIP-Seq Datengenerierung und Datenanalyse.