dc.contributor.author
Dieterich, Christoph
dc.date.accessioned
2018-06-07T15:12:46Z
dc.date.available
2005-05-30T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/739
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-4941
dc.description
Title page, Table of Contents
1 Motivation 1
Thesis structure . 2
Acknowledgments 2
2 Molecular biology of gene regulation 5
Genome biology . 5
DNA - the carrier of genetic information . 6
Genes - entities of genetic information 8
Strategies for gene detection 10
Gene regulation at the promotor level . 10
Transcriptional control DNA sequence elements 12
Transcription factors protein components of gene regulation 13
Activating transcription mechanistic insights 13
Conservation of genes and their regulation 14
Phylogenetic footprinting 16
Selected experimental approaches . 17
Sensitive and accurate detection of gene expression RTPCR . 17
Largescale measuring of gene expression levels with microarray technology 19
Chromatin immunoprecipitation . 21
3 Comparative Sequence Analysis 23
Sequence Alignment 23
Global vs. Local sequence alignment . 24
Models of nucleotide substitution . 24
How to score an alignment 27
Alignment algorithms 28
The WatermanEggert algorithm . 30
Alignment statistics . 31
Ungapped alignment statistics . 31
Gapped alignment statistics 33
Multiple alignments . 34
4 CORG a promoter annotation framework 37
Definition of an upstream region 37
Sequence retrieval and preprocessing . 38
Phylogenetic relationships of genes 38
Initial sequence processing . 40
The notion of conserved noncoding blocks 41
Adaptation of the SIM implementation of the WatermanEggert algorithm . 42
Detection of CNBs . 42
Extension to multispecies comparison 44
Annotation of conserved noncoding blocks and promoter regions 46
CORG pipeline . 49
Database design . 49
Web interface 49
CORG content summary 53
GC content and upstream region length . 53
Conservation extent and localization . 53
5 Applications for CORG 59
Binding site distributions across cell cycle phases 59
Binding site prediction . 60
Association mining . 61
Significant deviant binding site distributions . 65
Biological implications . 67
Promoter analysis of SRF responsive genes 68
Identification of SRF target genes . 69
Experimental Validation of SRFregulated genes by RTPCR and ChIP 76
Comparison to the LPS response of dendritic cells . 78
Studying the LPS response of dendritic cells . 78
Comparison of target gene sets 79
6 Conclusion 83
A Kurzzusammenfassung 97
B Erklärung zur Urheberschaft 99
C List of related publications 101
D Curriculum vitae 103
E Availability 105
F IUPAC ambiguity codes 107
Bibliography 7
dc.description.abstract
This thesis starts with a general introduction to genome organization and gene
regulation in eukaryotes (Chapter 2). Attention is especially drawn to events
at the promoter level and conservation of components therein (see Section 2.2
and 2.3). What follows is a more formal description of comparative sequence
analysis in Chapter 3. In Section 3.1, the concept of pairwise sequence
alignment is presented, which occupies a central position in this thesis.
Different alignment types and scoring schemes are reviewed and our method of
choice (suboptimal local alignments) is explained in greater detail. A related
issue is to assess the statistical significance of an alignment result.
Section 3.2 provides a comprehensive insight into our random model of
alignment scores and the corresponding significance computation. An extension
to multiple alignments is discussed in Section 3.3. Chapter 4 presents the
software components and work-flows to build the infrastructure of CORG, our
promoter annotation framework. Firstly, we motivate our definition of an
upstream region encompassing the start of transcription (Section 4.1).
Secondly, in Section 4.2 we show ways to elucidate the phylogenetic
relationships of the corresponding genes, and discuss pros and cons of the
footprinting approach. We cover our approach of detecting and annotating local
sequence similarities in multiple species in Section 4.3. The annotation step
brings in experimental evidence as diverse as ESTs, binding site
representations and mapped start sites of transcription. Design issues with
respect to database structure and user interface are subsequently presented in
Section 4.4 and 4.5. Two example applications of our system are shown in
chapter 5. In Section 5.1, a large-scale study on binding site distributions
in upstream regions of co-expressed genes, unravels putative regulators of
cell cycle progression. Furthermore, a detailed study on predicting conserved
binding sites with subsequent experimental evaluation stresses the quality of
the CORG system (Section 5.2). Putative binding sites of the Serum Response
Factor were evaluated in a collaborative experimental effort. This thesis
closes with a summary on the progress that has been made and an outlook on
forthcoming improvements.
de
dc.description.abstract
Diese Promotionsarbeit beschäftigt sich mit der Steuerung der Transkription
von Genen in Vertebraten im Allgemeinen und Säugern im Speziellen. Der Vorgang
der Transkription ist das Abschreiben von Genen in eine RNA Kopie und stellt
den ersten Schritt auf dem Weg zum Genprodukt dar. Unmittelbar um den
Transkriptionsstart liegen Sequenzelemente, die hauptsächlich für die
Effizienz des Transkriptionsvorganges relevant sind. Diese Sequenzelemente
werden als Promotoren bezeichnet. Die Ausdehnung von Genen und Bereichen
zwischen den Genen ist in Säugetieren beträchtlich groß (bis zu 1 Mb).
Transkriptionsstartpunkte und somit Promotoren lassen sich experimentell nur
schwer erfassen. Mein Ansatz nutzt die vergleichende Analyse orthologer
Sequenzbereiche aus verschiedenen Spezies. Die Grundidee ist das Aufspüren von
konservierten regulatorischen Sequenzelementen und Promotorbereichen. Diese
Elemente sind deshalb konserviert weil ein Ausfall oder Fehlen zur
Fehlsteuerung des Genprodukts führen würde, das ähnliche Aufgaben in den
entsprechenden Spezies verrichtet. Regulatorische Sequenzelemente stehen somit
unter selektivem Druck. Mithilfe verschiedener etablierter und neu
entwickelter Algorithmen wurde eine umfassende Sammlung solcher konservierter
regulatorischer Elemente berechnet. Diese Daten wurden dann gegen bekannte
Transkriptionsfaktorbindemuster abgeglichen. Die resultierenden Daten wurden
rechnerisch mit den Resultaten anderer biologischer Experimente verknüpft.
Aufbauend auf einer statistischen Analyse der Verteilung der relevanten
Muster, läßt dies Schlußfolgerungen zur Funktionalität dieser Muster zu. Die
Arbeit behandelt die folgenden Bereiche: 1. CORG Datenbank Das CORG
(Comparative Regulatory Genomics) Projekt vereint eine Vielzahl an Methoden
und Daten zur Vorhersage von Promotorbereichen. Zunächst werden Gruppen
homologer Gene für die vergleichende Sequenzanalyse definiert.
Upstreambereiche der Gene, die den eigentlichen Promotorbereich mit hoher
Wahrscheinlichkeit enthalten, werden auf Sequenzebene miteinander verglichen.
Hierzu wird der Waterman-Eggert Algorithmus zum Auffinden lokaler
Sequenzähnlichkeiten herangezogen. Um eine Signifikanz der beobachteten
Alignmentpunktzahl zu bestimmen wird die Verteilung aus zufälligen Alignments
als Poissonverteilung approximiert. Nicht-translatierte Exons werden durch den
Vergleich mit assemblierten EST Sequenzen detektiert.
Transkriptionsfaktorbindestellen werden innerhalb konservierter
Sequenzabschnitte durch Konsensmuster oder Gewichtsmatrizen vorhergesagt. Alle
Daten sind in einer relationalen Datenbank abgelegt, die über eine graphische
Benutzeroberfläche und PERL-Schnittstelle zugänglich ist. 2. Vorhersage von
Zellzyklusregulatoren. Periodisch exprimierte Gene wurden in 5 Gruppen
eingeteilt, die den Zellzyklusphasen M/G1, G1/S, S, G2 und G2/M entsprechen.
Für jede dieser Gruppen wurde ein Profil der konservierten Bindungsstellen in
den dazugehörenden Upstreambereichen erstellt. Die Verteilung der
Bindungsstellen über alle Gengruppen wurde in Relation zu einem Nullmodel
gesetzt. Das Nullmodell beruht auf der Annahme, dass zufällige Bindungsstellen
proportional zur Größe des Sequenzsuchraums auftreten. Die Abweichung von
beobachteter Verteilung von Bindungsstellen zu erwarteter Verteilung wurde mit
einem exaktem und einem approximativen Test bewertet. 3. Detailstudie SRF-
induzierter Gene. Der Serum Response Factor (SRF) ist an einer Vielzahl
biologischer Prozesse beteiligt: u.a. Immunantwort, Herzentwicklung,
embryonale Frühentwicklung und Neurogenese. Im Rahmen dieser Arbeit wurden die
Promotoren von zwei Gengruppen studiert, welche durch SRF induziert wurden.
Die erste Gruppe umfasst Gene, welche durch SRF in Srf -/- embryonalen
Stammzellen der Maus induziert werden. Die zweite Gruppe beinhaltet Gene die
durch Stimulation humaner dendritischer Zellen mit LPS als Teil der
Immunantwort induziert werden. Die Rolle von SRF und die Qualität der CORG
Promotoranalyse wurden zunächst eingehend in embryonale Stammzellen der Maus
studiert. Die signifikante Anreicherung von konservierten SRF Bindungsstellen
und deren experimentelle Validierung mittels Chromatin-Immunopräzipitation
lassen auf eine hohe Güte der CORG Promotoranalyse schließen. Das CORG Projekt
wurde im Rahmen dieser Promotionsarbeit etabliert und dessen Nutzen anhand von
biologischen Fragestellungen klar belegt. Das CORG Rahmenwerk ist offen und
flexible gestaltet. Neue Datenströme aus einer Vielzahl an Experimenten werden
so noch den Weg in die CORG Architektur finden.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Comparative sequence analysis
dc.subject
Alignment statistics
dc.subject
regulatory elements
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::510 Mathematik
dc.title
Comparative sequence analysis and association mining in gene regulation
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Stefan Mundlos
dc.date.accepted
2005-03-04
dc.date.embargoEnd
2005-06-03
dc.identifier.urn
urn:nbn:de:kobv:188-2005001336
dc.title.translated
Vergleichende Sequenzanalyse und Assoziationsmuster im Kontext der
Gensteuerung
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000001703
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2005/133/
refubium.mycore.derivateId
FUDISS_derivate_000000001703
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access