Over the past years, there has been a fundamental shift away from the application of semi-automated Sanger sequencing for genome analysis to so- called next-generation sequencing (NGS). The main advantage offered by NGS is the ability to sequence millions of DNA fragments in a very short time scale. There is a wide range of NGS applications, rapidly developing, making the computational analysis of their associated datasets very challenging. For gene expression analysis microarrays are more and more being replaced by sequenced- based methods, which can identify and quantify coding and non-coding transcripts without prior knowledge. Genome sequencing either at a whole or for particular sequences (targeted resequencing) enable the identification of genomic variations at a broad scale. This thesis approaches computational challenges of NGS technologies applied for targeted DNA resequencing, sequencing of expressed mRNAs (RNA-seq) and miRNAs (miRNA-seq) as well as the identification of protein-DNA interactions such as transcription factor binding sites or chromatin histone marks (ChIP-seq). Experimental datasets generated within the group as well as publicly available were used to develop novel computational approaches and bioinformatics tools for the analysis of NGS datasets and eventually answer biological questions regarding cardiac function and disease. A first study is focused on the combinatorial regulation of cardiac DNA-binding transcription factors (ChIP-seq of Srf) influenced by histone modifications (histone 3 acetylation) and regulatory miRNAs (miRNA- seq). As published in PLoS Genetics in 2011 these different levels regulating mRNA profiles have a high degree of interdependency and the potential to modulate each other. For example the effect of Srf binding is significantly influenced by the co-occurrence of histone 3 acetylation marks. Furthermore, differential expression of miRNAs can explain 45% of all differentially expressed mRNAs in Srf knockdown and approximately 50% of differential expression is driven by other secondary effects. Thus, to obtain a full picture of the regulatory transcription network underlying cardiomyocyte function, the different modulators need to be viewed in context to each other. Within this project the tool MicroRazerS was developed (published in Bioinformatics 2010). MicroRazerS is optimized for mapping small RNAs such as miRNAs or other small non-coding RNAs onto a reference genome. It is characterized by a higher sensitivity and an at least comparable speed to other short read mapping tools. The results suggest that MicroRazerS can substantially facilitate the profiling and discovery of miRNAs obtained from high-throughput sequencing. A second project aimed to identify the genetic basis of Tetralogy of Fallot (TOF). TOF accounts for up to 10% of all congenital heart disease, which are the most common birth defect in human. This study shows first time that TOF is an oligogenic disorder. We performed a multilevel study including targeted resequencing of over 1,000 heart- and muscle-relevant genes and miRNAs in TOF cases, parents and controls as well as whole transcriptome and miRNome analysis in TOF cases and healthy unaffected individuals using NGS techniques (87 samples). Genes were assessed according to the presence of deleterious variations and their rate of mutation in TOF subjects compared to healthy controls (200 cases). A set of 16 TOF genes was identified of which on average four genes per TOF subject are mutated and which discriminate TOF cases from controls. The computational approach developed within this study opens a new perspective for the analysis of oligo- or multigenic disorders in general.
Im Bereich der Genanalyse hat es in den vergangenen Jahren eine wesentliche Abkehr von der Anwendung der halbautomatisierten Sanger-Sequenzierung hin zur sogenannten Next-Generation-Sequenzierung (NGS) gegeben. Der Hauptvorteil dieser NGS-Methoden liegt vor allem in der Fähigkeit Millionen von DNS- Fragmenten in sehr kurzer Zeit zu sequenzieren. Insgesamt gibt es eine breite Palette von NGS-Anwendungen, die sich schnell weiterentwickeln, was die computergestützte Analyse der damit verbundenen Datenmengen sehr anspruchsvoll macht. In der Genexpressionsanalyse werden die früher herkömmlichen Microarrays mehr und mehr durch sequenzbasierte Methoden ersetzt, die kodierenden und nicht-kodierenden Transkripte ohne deren vorherige Kenntnis identifizieren und quantifizieren können. Die Sequenzierung eines ganzen Genoms oder bestimmter Sequenzen (gezielte Resequenzierung) ermöglicht die Identifizierung von genomischen Variationen auf einer breiten Basis. Diese Dissertation beschäftigt sich mit den Herausforderungen, die sich im Zusammenhang mit der Anwendung von NGS-Technologien ergeben. Das beinhaltet die gezielte DNA-Resequenzierung, die Sequenzierung von exprimierten mRNAs (RNA-seq) und microRNAs (miRNA-seq) sowie die Identifizierung von Protein-DNA- Wechselwirkungen, wie Bindungsstellen für Transkriptionsfaktoren oder Histonmodifikationen (ChIP-seq). Die innerhalb der Arbeitsgruppe generierten sowie öffentlich verfügbaren, experimentellen Datensätze wurden verwendet, um neuartige, computergestützte Ansätze und Methoden der Bioinformatik für die Analyse von NGS-Datensätzen zu entwickeln und schließlich biologische Fragen hinsichtlich der Herzfunktion und -krankheit zu beantworten. Eine erste Studie konzentriert sich auf die kombinatorische Regulation von kardialen, DNA- bindenden Transkriptionsfaktoren (ChIP-seq von Srf) beeinflusst von Histonmodifikationen (Histon 3 Acetylierung) und regulatorischen miRNAs (miRNA-seq). Wie in PLoS Genetics im Jahr 2011 veröffentlicht, haben diese verschiedenen regulierenden Ebenen von mRNA-Profilen ein hohes Maß an Wechselwirkung und das Potenzial sich gegenseitig zu modulieren. Zum Beispiel wird die Wirkung von Srf maßgeblich durch das gleichzeitige Auftreten von Histon 3 Acetylierungsmarkierungen beeinflusst. Darüber hinaus können 45% aller differentiell exprimierten mRNAs im Srf Knockdown durch die unterschiedliche Expression von microRNAs erklärt werden. Ungefähr die Hälfte aller differentiell exprimierten mRNAs wird durch andere sekundäre Effekte beeinflusst. Um daher ein vollständiges Bild des regulatorischen Transkriptionsnetzwerkes und der zugrundeliegenden Funktion von Kardiomyozyten (Herzmuskelzellen) zu erhalten, müssen die verschiedenen Modulatoren in Zusammenhang miteinander betrachtet werden. Im Rahmen dieser Studie wurde das Programm MicroRazerS entwickelt (veröffentlicht in Bioinformatics 2010). MicroRazerS ist optimiert für das Mappen kleiner RNA-Sequenzen, wie zum Beispiel microRNAs oder andere kleine nicht-codierende RNAs, zu einem Referenz-Genom. Es zeichnet sich durch eine höhere Sensitivität und zumindest vergleichbare Geschwindigkeit im Vergleich zu anderen Mapping-Programmen aus. Die Ergebnisse zeigen, dass MicroRazerS das Auffinden und die Entdeckung von microRNAs in Hochdurchsatz-Sequenzierungdaten wesentlich erleichtern kann. Ein zweites Projekt zielte darauf ab, die genetische Grundlage der Fallot'schen Tetralogie (TOF) zu identifizieren. TOF tritt in bis zu 10% aller angeborenen Herzerkrankungen auf, die die größte Gruppe der angeborenen Fehlbildungen des Menschen darstellen. Diese Studie zeigt erstmals, dass TOF eine oligogenetische Erkrankung ist. Wir haben eine mehrstufige Studie durchgeführt, darunter die gezielte Resequenzierung von über 1.000 herz- und muskelrelevanten Genen und microRNAs in TOF Patienten, Eltern und Kontrollen sowie die Analyse des ganzen Transkriptoms und miRNomes in TOF Patienten und gesunden Personen unter der Verwendung von NGS-Technologies (87 Proben). Gene wurden nach dem Vorhandensein von schädlichen Variationen und ihrer Mutationsrate in den TOF-Patienten im Vergleich zu gesunden Kontrollen (200 Fälle) beurteilt. Eine Menge von 16 sogenannten TOF-Genen wurde identifiziert, von denen durchschnittlich vier Gene pro TOF-Patient mutiert sind und die die TOF-Patienten von den Kontrollen unterscheiden. Im Allgemeinen stellt die in dieser Studie entwickelte Analysestrategie und der verwendete Bioinformatikansatz eine neue Perspektive für die Analyse von oligo- oder multigenetische Erkrankungen dar.