This thesis starts with a general introduction to genome organization and gene regulation in eukaryotes (Chapter 2). Attention is especially drawn to events at the promoter level and conservation of components therein (see Section 2.2 and 2.3). What follows is a more formal description of comparative sequence analysis in Chapter 3. In Section 3.1, the concept of pairwise sequence alignment is presented, which occupies a central position in this thesis. Different alignment types and scoring schemes are reviewed and our method of choice (suboptimal local alignments) is explained in greater detail. A related issue is to assess the statistical significance of an alignment result. Section 3.2 provides a comprehensive insight into our random model of alignment scores and the corresponding significance computation. An extension to multiple alignments is discussed in Section 3.3. Chapter 4 presents the software components and work-flows to build the infrastructure of CORG, our promoter annotation framework. Firstly, we motivate our definition of an upstream region encompassing the start of transcription (Section 4.1). Secondly, in Section 4.2 we show ways to elucidate the phylogenetic relationships of the corresponding genes, and discuss pros and cons of the footprinting approach. We cover our approach of detecting and annotating local sequence similarities in multiple species in Section 4.3. The annotation step brings in experimental evidence as diverse as ESTs, binding site representations and mapped start sites of transcription. Design issues with respect to database structure and user interface are subsequently presented in Section 4.4 and 4.5. Two example applications of our system are shown in chapter 5. In Section 5.1, a large-scale study on binding site distributions in upstream regions of co-expressed genes, unravels putative regulators of cell cycle progression. Furthermore, a detailed study on predicting conserved binding sites with subsequent experimental evaluation stresses the quality of the CORG system (Section 5.2). Putative binding sites of the Serum Response Factor were evaluated in a collaborative experimental effort. This thesis closes with a summary on the progress that has been made and an outlook on forthcoming improvements.
Diese Promotionsarbeit beschäftigt sich mit der Steuerung der Transkription von Genen in Vertebraten im Allgemeinen und Säugern im Speziellen. Der Vorgang der Transkription ist das Abschreiben von Genen in eine RNA Kopie und stellt den ersten Schritt auf dem Weg zum Genprodukt dar. Unmittelbar um den Transkriptionsstart liegen Sequenzelemente, die hauptsächlich für die Effizienz des Transkriptionsvorganges relevant sind. Diese Sequenzelemente werden als Promotoren bezeichnet. Die Ausdehnung von Genen und Bereichen zwischen den Genen ist in Säugetieren beträchtlich groß (bis zu 1 Mb). Transkriptionsstartpunkte und somit Promotoren lassen sich experimentell nur schwer erfassen. Mein Ansatz nutzt die vergleichende Analyse orthologer Sequenzbereiche aus verschiedenen Spezies. Die Grundidee ist das Aufspüren von konservierten regulatorischen Sequenzelementen und Promotorbereichen. Diese Elemente sind deshalb konserviert weil ein Ausfall oder Fehlen zur Fehlsteuerung des Genprodukts führen würde, das ähnliche Aufgaben in den entsprechenden Spezies verrichtet. Regulatorische Sequenzelemente stehen somit unter selektivem Druck. Mithilfe verschiedener etablierter und neu entwickelter Algorithmen wurde eine umfassende Sammlung solcher konservierter regulatorischer Elemente berechnet. Diese Daten wurden dann gegen bekannte Transkriptionsfaktorbindemuster abgeglichen. Die resultierenden Daten wurden rechnerisch mit den Resultaten anderer biologischer Experimente verknüpft. Aufbauend auf einer statistischen Analyse der Verteilung der relevanten Muster, läßt dies Schlußfolgerungen zur Funktionalität dieser Muster zu. Die Arbeit behandelt die folgenden Bereiche: 1. CORG Datenbank Das CORG (Comparative Regulatory Genomics) Projekt vereint eine Vielzahl an Methoden und Daten zur Vorhersage von Promotorbereichen. Zunächst werden Gruppen homologer Gene für die vergleichende Sequenzanalyse definiert. Upstreambereiche der Gene, die den eigentlichen Promotorbereich mit hoher Wahrscheinlichkeit enthalten, werden auf Sequenzebene miteinander verglichen. Hierzu wird der Waterman-Eggert Algorithmus zum Auffinden lokaler Sequenzähnlichkeiten herangezogen. Um eine Signifikanz der beobachteten Alignmentpunktzahl zu bestimmen wird die Verteilung aus zufälligen Alignments als Poissonverteilung approximiert. Nicht-translatierte Exons werden durch den Vergleich mit assemblierten EST Sequenzen detektiert. Transkriptionsfaktorbindestellen werden innerhalb konservierter Sequenzabschnitte durch Konsensmuster oder Gewichtsmatrizen vorhergesagt. Alle Daten sind in einer relationalen Datenbank abgelegt, die über eine graphische Benutzeroberfläche und PERL-Schnittstelle zugänglich ist. 2. Vorhersage von Zellzyklusregulatoren. Periodisch exprimierte Gene wurden in 5 Gruppen eingeteilt, die den Zellzyklusphasen M/G1, G1/S, S, G2 und G2/M entsprechen. Für jede dieser Gruppen wurde ein Profil der konservierten Bindungsstellen in den dazugehörenden Upstreambereichen erstellt. Die Verteilung der Bindungsstellen über alle Gengruppen wurde in Relation zu einem Nullmodel gesetzt. Das Nullmodell beruht auf der Annahme, dass zufällige Bindungsstellen proportional zur Größe des Sequenzsuchraums auftreten. Die Abweichung von beobachteter Verteilung von Bindungsstellen zu erwarteter Verteilung wurde mit einem exaktem und einem approximativen Test bewertet. 3. Detailstudie SRF- induzierter Gene. Der Serum Response Factor (SRF) ist an einer Vielzahl biologischer Prozesse beteiligt: u.a. Immunantwort, Herzentwicklung, embryonale Frühentwicklung und Neurogenese. Im Rahmen dieser Arbeit wurden die Promotoren von zwei Gengruppen studiert, welche durch SRF induziert wurden. Die erste Gruppe umfasst Gene, welche durch SRF in Srf -/- embryonalen Stammzellen der Maus induziert werden. Die zweite Gruppe beinhaltet Gene die durch Stimulation humaner dendritischer Zellen mit LPS als Teil der Immunantwort induziert werden. Die Rolle von SRF und die Qualität der CORG Promotoranalyse wurden zunächst eingehend in embryonale Stammzellen der Maus studiert. Die signifikante Anreicherung von konservierten SRF Bindungsstellen und deren experimentelle Validierung mittels Chromatin-Immunopräzipitation lassen auf eine hohe Güte der CORG Promotoranalyse schließen. Das CORG Projekt wurde im Rahmen dieser Promotionsarbeit etabliert und dessen Nutzen anhand von biologischen Fragestellungen klar belegt. Das CORG Rahmenwerk ist offen und flexible gestaltet. Neue Datenströme aus einer Vielzahl an Experimenten werden so noch den Weg in die CORG Architektur finden.