Motivation and Thesis Structure Transcriptional Regulation Gene regulation deals with the processes, that enable an organism to create a large variety of cells and cell states from the same genome. A cell uses different genes under divergent conditions, for example in two phases of the cell cycle. In metazoan organisms completely different cell types, like a liver and a brain cell, are encoded in the same genome. However, the set of genes needed in both cases differs. A crucial step at which a cell regulates the production of proteins and other gene products is transcriptional regulation. The molecular machinery that transcribes the gene assembles at the transcriptional start site, the point from where an RNA copy of the gene is transcribed. The RNA is subsequently processed and often later on used as a blueprint for protein translation. The assembly of the transcriptional apparatus is governed by transcription factors: proteins that recognize and bind to the DNA and support tethering of the transcriptional apparatus to the transcriptional start site. We present a concise overview about the molec- ular biology of transcription in Section 2.1. To date the known target spectrum of transcription factors ranges from very specific factors with only a tiny number of targets under distinct conditions to ubiquituous factors, which influence the transcription of a large fraction of genes in a large variety of cell types and conditions. The estimated fraction of different transcription factors encoded in the human genome varies between 6 and 8%, leading to more than 2,500 different transcription factors. The number of transcription factors expressed per human tissue is between 150 and 350. Transcription Factor Interactions and Regulatory Regions Aggregates of several transcription factors can act synergistically or antagonistically. Using combinations of transcription factors is beneficial to an organism, not only because of the many possible interactions which allow for fine-grained regulation, but also because a partial redundance of transription factors makes the transcriptional response more stable. The transcriptional network is dynamic, and the number of possible combinations of factor-factor and factor-DNA interactions in a complete organism is enormous due to the size of the genome, the number of different transcription factors, and the large number of different cell states and cell types. We summarize details about transcription factor interactions in Section 2.2. Transcription factors bind to two major classes of regulatory regions — promoters and enhancers. On the genomic sequence the promoters are located close to the regulated gene. Enhancers can be far away; in this case the interaction with the transcriptional machinery is possible because of bending and looping of the DNA. The promoters harbor binding sites for general transcription factors which drive a low level of transcription, as well as for specific factors, that modulate the expression strength dependent on various factors. Enhancers usually influence specific expression. For properties of regulatory regions we refer the reader to Section 3.3.1. We present an overview of the large variety of experimental methods for the detection of transcription factor binding sites, transcription factor interactions and the detection of regulatory regions in Sections 2.3.1 and 2.3.3. Computational Methods Already the knowledge of the first binding motifs of transcription factors led researchers to search for more potential binding sites in other parts of the genome with in silico methods. Over time this lead to the development of copious methods for the prediction of transcription factor binding sites. A general problem of these methods lies in the nature of transcription factor binding sites. They are short and degenerate, which means that a high number of occurrences of a matching DNA motif is present by chance, rather than for a functional reason. We explain the general ideas and the problems that arise in Section 3.1. The prediction of transcription factor interactions is a difficult problem. Available methods make use of expression data, experimental binding data, overrepresented sequence motifs, or predicted transcription factor binding sites and apply a large variety of statistical methods. We summarize these methods in Section 3.2.2. Also for the prediction of regulatory regions one has the choice between many different tools. Partly they are sequence based only and deploy low level features like GC content or higher level features such as binding motifs. Other tools additionally utilise experimental data. We review various approaches in Section 3.3. Working Hypothesis The underlying assumption of the present work is, that in regulatory regions, binding sites of interacting transcription factors co- occur more often than expected by chance. The prediction of individual transcription factor binding sites is hampered by a large number of false positive results. Nevertheless we expect our assumption to be true also for predicted binding sites, even if the signal that emanates is weakened. To that end we develop two new methods, one for the prediction of transcription factor interactions, and one for the prediction of regulatory regions based on commonness of transcription factor binding site combinations. A Co-occurrence Score for Transcription Factor Binding Sites For the prediction of functional transcription factor interactions, we develop a counting method, which applies a sliding window over annotated transcription factor binding sites. The counting procedure is able to deal with overlapping windows, homotypic clusters, and overlapping binding sites. For the detection of overrepresented TFBS pairs, we calculate as a co-occurrence score the log odds score of observed over expected number TFBS pairs. We estimate the number of expected pairs using a label permutation procedure with subsequent recountings. We describe our method in Section 4. We assess the counting procedure and the co- occurrence score on artificially generated datasets with defined number of co- occurrences in Section 6.1 and show, that the method is able to detect low TFBS pair enrichments. We apply the method to yeast regulatory regions in Section 6.2, and find that a large number of overrepresented TFBS pairs in fact belong to transcription factors known to interact. Moreover we examine the similarity of binding sites of interacting pairs and reasons for underrepresentation of TFBS pairs. In Section 6.5 we compare the co-occurrence score with the costat method by Pape et al.. Subsequently we apply the method to vertebrate data in Chapter 6. Despite the much higher complexity of the regulatory network of vertebrates compared to yeast, we still find many known inter- actions among the top scoring pairs. This is the case for a genome wide study in human in Section 6.3, as well as for genes expressed in human embryonic kidney cells (Section 6.4.2), and tissue specific gene sets from mouse (Section 6.4.3). Binding Site Graphs for the Prediction of Regulatory Regions Many tools for the pre- diction of regulatory regions explicitly or implicitly apply sequence properties like the GC content or the presence of CpG islands for the detection of regulatory regions. We aim to design a method, which is less dependent on low level features and hence makes use of the knowledge about over- and underrepresented TFBS pairs in known regulatory regions to measure the regulatory potential. We represent the predicted binding sites in a sequence to be characterised as the vertices in a graph. Subsequent assignment of co-occurrence scores as edge weights for all vertex pairs leads to a binding site graph. The co-occurrence scores originate from known regulatory regions and are calculated with the method from Section 4. Using this graph, we now can calculate various edge-weight based scores for the input sequence, which we call regulatory potentials and which represent the level of abundance of transcription factor combinations typical for regulatory regions. We present our approach in Chapter 5. In Chapter 7 we apply the methods to known regulatory regions. We show the performance of one of the scores on the well examined regulatory regions of the murine PAX6 gene and known human enhancer regions from the VISTA set. In Section 7.2 we assess the reliability of our method for genome-wide prediction of regulatory regions based on test sets, consisting of promoter and enhancer regions as positive sets and an artificial, shuffled sequence set and an intergenic set as negative sets. We find, that although the biggest factor playing a role in the prediction of regulatory function again is the GC content of a candidate sequence, our method should be used to filter out false positive predictions of regulatory function based on GC content. In Chapter 8 we summarize and discuss our findings.
Transkriptionelle Regulation und Transkriptionsfaktor-Interaktionen Transkriptionsfaktoren, welche die Rate der Transkription von Genen durch Bindung an spezifische Motive auf der DNA und durch Interaktion mit der Transkriptionsmaschinerie regulieren, erfüllen ihren Aufgaben im Zellkern in Kombination mit anderen Transkriptionsfaktoren. Diese Interaktionen können auf der einen Seite sehr spezifisch sein, so daß ein bestimmter Faktor einen bestimmten anderen Faktor benötigt, um seine Funktion auszuführen. Auf der anderen Seite kann die Bandbreite an Interaktionspartnern eines Faktors sehr groß sein, wobei die Funktion verschiedener Komplexe redundant sein, oder sich mit wechselnden Partnern verändern kann. Für viele Transkriptionsfaktoren sind Bindemotive bekannt, so daß eine bioinformatische Vorhersage von potentiellen Bindungsstellen möglich ist. Wegen verschiedener anderer Ebe- nen der Regulation ist diese ist im Normalfall jedoch fehlerbehaftet und führt zu einer großen Menge falsch-positiver Vorhersagen. In der vorliegenden Arbeit nutzen wir vorhergesagte Transkriptionsfaktor-Bindungsstellen (TFBS), um zunächst anhand von häufig beobachteten TFBS-Kombinationen in bekannten regulatorischen Regionen mögliche Interaktionspartner von Transkriptionsfaktoren zu identifizieren. In einem weiteren Schritt nutzen wir das gewonnene Wissen über gehäuftes Auftreten der TFBS-Kombinationen, um mit Hilfe von Bindungsstellen-Graphen DNA- Sequenzen bezüglich ihres regulatorischen Potentials zu charakterisieren. Arbeitshypothese Die unserer Arbeit zugrunde liegende Annahme ist, daß die vorhergesagten Bindungsstellen interagierender Transkriptions-Faktoren häufiger in Nähe zueinander auftreten, als durch Zufall zu erwarten wäre. Wir rechnen mit einer erschwerten Detektion interagierender Faktoren durch die hohe Falsch- Positiven-Rate bei der Vorhersage individueller Bindungsstellen, gehen jedoch davon aus, daß die vorhandene Information auf der DNA groß genug ist. Grundlegende Methoden Wir behandeln die biologischen Grundlagen der transkriptionellen Regulation, und experimentelle Methoden zur Ermittlung von Transkriptionsfaktor-Bindungsstellen, Transkriptionsfaktor-Interaktionen und regula- torischen Regionen in Kapitel 2. In Abschnitt 3.1 erläutern wir den bioinformatischen Weg von der Beschreibung einer experimentell ermittelten Transkriptionsfaktor-Bindungsstelle zu der Suche nach weiteren potentiellen Bindungsstellen eines Faktors. Abschnitt 3.2.2 enthält einen Überblick über verschiedene Ansätze zur Vorhersage von Transkriptionsfaktor-Interaktionen. In Abschnitt 3.3 stellen wir gängige Methoden zur Detektion von regulatorischen Regionen vor. Vorhersage von Transkriptionsfaktor- Interaktionen Wir beschreiben unsere Methode zur Vorhersage von Transkriptionsfaktor-Interaktionen in Kapitel 4. Sie besteht im einzelnen aus einer Zählmethode, welche auf einem sich über die Sequenz bewegenden Fenster, und speziellen Behandlungsweisen für homotypische Bindungsstellen- Häufungen und überlappende Bindungsstellen basiert. Zur Identifikation von überrepräsentierten Bindungsstellen-Kombinationen berechnen wir die co- occurrence score als log-odds score der beobachteten und durch Zufall erwarteten Anzahl an Bindungsstellen-Paaren. In Kapitel 6 testen wir unsere Vorhersagemethode zunächst auf künstlich generierten Datensätzen (Abschnitt 6.1) und können zeigen, daß die Methode auch TFBS-Paare identifizieren kann, die nur schwach überrepräsentiert sind. Die Anwendung der Methode in Abschnitt 6.2 auf Promotor-Sequenzen aus der Bäckerhefe ergibt unter den am stärksten überrepräsentierten Kombinationen einen sehr großen Anteil bereits in der Literatur beschriebener Interaktionen. Darüberhinaus untersuchen wir die Ähnlichkeit der Bindungsstellen interagierender Transkriptionsfaktoren. In Abschnitt 6.5 vergleichen wir die co-occurrence score mit der costat-Methode, die in Pape et al. [253] vorgestellt wurde. Anschließend untersuchen wir potentielle Transkriptionsfaktor-Interaktionen in Vertebraten. Trotz der weitaus größeren Komplexität des regulatorischen Netzwerkes in Vertebraten finden wir unter den Transkriptionsfaktor-Paaren mit den höchsten co-occurrence scores eine große Zahl bereits bekannter Interaktionen – dies sowohl in einer genomweiten Untersuchung auf humanen Promotor-Sequenzen (Abschnitt 6.3), als auch in den Promotoren von HEK- exprimierten Genen (Abschnitt 6.4.2) und gewebspezifisch exprimierten Genen in Maus (Abschnitt 6.4.3). Vorhersage von Regulatorischen Regionen Die meisten Methoden zur Vorhersage regulatorischer Regionen nutzen explizit oder implizit Sequenzeigenschaften wie den GC-Gehalt oder CpG-Inseln. Unser Ziel ist es, eine Methode zu entwickeln, die weniger von Merkmalen auf niedriger Ebene abhängt, und nutzen aus diesem Grund Informationen über Über- und Unterrepräsentation von Bindungsstellen-Paaren in bekannten regulatorischen Regionen, um das regulatorische Potential einer DNA-Sequenz zu beschreiben. Wir stellen vorhergesagte Bindungsstellen in einem Stück Sequenz durch Knoten in einem Bindungsstellen-Graphen dar. Zunächst werden alle Knoten mit allen anderen durch Kanten verbunden, die als Gewicht die den Endpunkten entsprechende co-occurrence score zugewiesen bekommen. Die co-occurrence scores stammen aus der vorher in Abschnitt 4 beschriebenen Methode und wurden auf bekannten regulatorischen Regionen des entsprechenden Organismus berechnet. Basierend auf diesem Bindungsstellen-Graphen berechnen wir verschiedene Kantengewicht-basierte regulatorische Potentiale, die die Häufigkeit des Auftretens Promotor-typischer Bindungsstellen-Kombinationen beschreiben. Wir beschreiben diesen Ansatz ausführlich in Kapitel 5. In Kapitel 7 wenden wir die Methoden auf bekannten regulatorischen Regionen an. Wir berechnen regulatorische Potentiale für die gut untersuchten regulatorischen Regionen des Pax6 Gens in Maus und für Enhancer-Regionen aus dem VISTA-Datensatz. In Abschnitt 7.2 bewerten wir die Zuverlässigkeit unserer Methode für genomweite Vorhersagen regulatorischer Regionen basierend auf verschiedenen Test-Datensätzen. Diese enthalten echte Promoter- und Enhancer-Sequenzen in verschiedenen Positiv-Sets, und künstliche und intergenische Regionen als Negativ-Set. Unsere Ergebnisse zeigen, dass die unterschiedlichen Scores in der Lage sind, nicht-regulatorische von regulatorischen Sequenzen zu unterscheiden. Obwohl der Faktor mit dem größten Einfluß auf die Vorhersage regulatorischer Funktion nach wie vor der GC-Gehalt ist, ermöglichen es die regulatorischen Potentiale, wegen hohem GC-Gehalts falsch-positive Vorhersagen einer Sequenz herauszufiltern. In Kapitel 8 fassen wir die Arbeit zusammen und diskutieren die Ergebnisse im Überblick.