Fundamental biological processes such as differentiation and proliferation depend on the coordinated regulation of genes by transcription factors. Genome-wide experimental approaches for quantification of gene expression have substantially extended our knowledge about gene-regulatory networks and their dynamics across developmental stages and tissues. The technique of using specific antibodies in order to enrich DNA that is bound by a transcription factor and to subsequently sequence the immunoprecipitated DNA (ChIP-seq) has facilitated the genome-wide mapping of protein-DNA interactions. The generated data can be used to gain deeper insights into the mechanisms of gene regulation. However, the interpretation of the data is complicated by the fact that transcription factors bind genomic regions, so called cis-regulatory modules, that may regulate the expression of a target gene that is located several hundred kilobases away. Furthermore not every binding event shows a direct effect on the expression of a gene. In this work, we develop methods for characterization and comparison of genome-wide binding profiles. In addition we describe an algorithm which integrates binding profiles for multiple transcription factors and defines classes of combinatorial binding events in order to assess their functional impact on differential expression of neighboring genes. This method can be used to filter the thousands of binding events for classes of a few hundred events that are more likely to have a regulatory function. This is confirmed by analysis of functional coherence and cross-species sequence conservation. In the last part of this thesis, we present a method, that improves the prediction of target genes for a set of functional cis-regulatory regions by not only relying on genomic distance but also integrating information about conserved synteny between cis- regulatory region and target gene, functional similarity between regulator and target gene, and vicinity in protein-interaction networks. This method predicts the correct target genes in 58% of cases, which is a two fold improvement over an approach that only relies on genomic distance. In summary, the presented methods allow to gain more biologically relevant insights from the analysis of ChIP-seq data and to improve our understanding of the function of the analyzed transcription factors.
Grundlegende biologische Prozesse wie Wachstum und Differenzierung werden durch die koordinierte Regulation von Genen durch Transkriptionsfaktoren gesteuert. Genomweite experimentelle Ansätze zur Quantifizierung von Genexpression mittels Microarrays haben unser Wissen über genregulatorische Netzwerke und deren Dynamik über verschiedene Entwicklungsstadien und Gewebe hinweg substantiell erweitert. Die Technik, über spezifische Antikörper, von einem Transkriptionsfaktor gebundene DNA, bzw. Chromatin zu immunoprezipitieren und dann die angereicherte DNA zu sequenzieren (ChIP-seq), hat die Möglichkeit geschaffen, zu einem bestimmten Zeitpunkt nahezu alle genomischen Regionen, die von einem Transkriptionsfaktoren gebunden sind, zu detektieren und mit diesem Wissen viel tiefere Einblicke in die Mechanismen der Genregulation zu gewinnen. Die Interpretation der gewonnenen Daten gestaltet sich jedoch schwierig, weil erstens Transkriptionsfaktoren genomische Regionen, sogenannte cis-regulatorische Bereiche, binden können, die hunderte von Kilobasen von einem Gen entfernt liegen und dessen Expression beeinflussen und weil zweitens nicht jedes Bindungsereignis die Expression eines Gens beeinflusst. In dieser Arbeit werden Methoden entwickelt, um genomweite Bindungsprofile besser zu charakterisieren und zu vergleichen. Darüber hinaus beschreiben wir einen Algorithmus, der die Bindungs-profile von mehreren Transkriptionsfaktoren integriert und Klassen von kombinatorisch gebundenen Regionen definiert und deren Funktionalität über ihre Assoziation mit differentieller Expression von benachbarten Genen bestimmt. Die Methode lässt sich dazu verwenden, aus den tausenden von gebunden Regionen, Klassen von einigen hunderten zu definieren, die mit höherer Wahrscheinlichkeit eine regulatorische Rolle spielen. Dies wird durch Analysen auf funktionelle Kohärenz und speziesübergreifende Sequenzkonservierung bestätigt. Im letzten Abschnitt dieser Arbeit stellen wir eine Methode vor, die ausgehend von funktionellen cis-regulatorischen Bereichen die Vorhersage der Zielgene verbessert, indem sie nicht nur die genomische Distanz berücksichtigt sondern zusätzlich die Konservierung der Syntenie zwischen cis-regulatorischer Region und Zielgen, die funktionelle Ähnlichkeit zwischen dem immunoprezipitierten Transkriptionsfaktor und Zielgen und deren Nähe in Proteininteraktionsnetzwerken berücksichtigt und damit die Korrektheit der Vorhersagen für Zielgene im Vergleich zu Vorhersagen, die nur auf genomischer Distanz basieren, um das Zweifache auf 58% verbessert. Die vorgestellten Methoden ermöglichen es somit, mehr biologisch relevante Informationen aus den ChIP-seq Daten zu ziehen und damit die Wirkungsweise der untersuchten Transkriptionsfaktoren besser zu verstehen.