dc.contributor.author
Messer, Philipp
dc.date.accessioned
2018-06-08T00:39:05Z
dc.date.available
2008-03-27T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12259
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-16457
dc.description
Title, Preface, Contents
1\. Introduction
1.1 Molecular biology and evolution
1.2 Mutational processes
1.3 Inferring mutation characteristics
1.4 Background models of DNA sequences
1.5 Thesis organization
2\. DNA insertions and deletions in the human lineage
2.1 Identification of indels in the human lineage
2.2 Tandem duplications and molecular mechanisms
2.3 Indels in protein-coding regions
3\. Tandem duplications and genomic correlations
3.1 Dynamical model of sequence evolution
3.2 Sequence growth and average composition
3.3 Stationary two-point correlations
3.4 Finite-size distribution of the composition bias
3.5 Symmetry breaking and universality
3.6 Dynamical correlations
3.7 General four-letter model and web service CorGen
3.8 Origin of genomic correlations
4\. Genomic correlations and sequence alignment statistics
4.1 Sequence alignment and significance assessment
4.2 The Gaussian approximation
4.3 Numerical results
4.4 Consequences for genomic alignments
5\. Summary
Bibliography
Zusammenfassung
dc.description.abstract
Profound knowledge about the nature of mutational processes is essential for a
comprehensive understanding of the evolutionary mechanisms that change genomes
over time. The aim of the thesis is to elucidate the role of DNA insertions
and deletions in this context. Compared with nucleotide substitutions, these
types of mutations are far less understood. We perform a detailed genome-wide
analysis of short DNA insertions and deletions that recently occurred in the
human lineage. Our main finding is that insertions are predominately tandem
duplications of adjacent sequence segments. We investigate the implications of
this observation on possible molecular mechanisms of indel generation, large-
scale statistical features of genomic base composition, and significance
estimation of sequence alignment similarity scores.
de
dc.description.abstract
Mutationsprozesse spielen eine fundamentale Rolle in den grundlegenden
Mechanismen der molekularen Evolution. Sie erzeugen die notwendigen DNA-
Veränderungen, aus denen genetische Variationen erst entstehen können. Im
Vergleich zu Punktmutationen sind Insertionen und Deletionen von DNA-Segmenten
weit weniger untersucht. Ziel dieser Arbeit war es, Charakteristika, Herkunft
und Auswirkungen kurzer DNA Insertionen und Deletionen in der Genomevolution
zu analysieren. Wir untersuchten multiple Alignments von Mensch, Schimpanse
und Rhesus, um genomweit kurze Insertionen und Deletionen zu identifizieren,
die sich in der menschlichen Stammlinie seit ihrer Speziation vom letzten
gemeinsamen Vorfahren mit dem Schimpansen ereignet haben. Wir konnten zeigen,
dass die meisten Insertionen Tandemduplikationen direkt angrenzender
Sequenzsegmente sind. Diese Eigenschaft hätte man für Insertionen in Mikro-
und Minisatelliten durchaus erwartet. Wir stellten jedoch überaschenderweise
fest, dass Insertionen auch in nicht-repetitiven Bereichen des Genoms
vorwiegend als Tandemduplikationen identifiziert werden konnten. Nur ein
kleiner Teil aller Insertionen und Deletionen hatte sich überhaupt in
repetitiven Bereichen ereignet. Die Auswirkungen dieser Beobachtungen sind
vielschichtig. Wir konnten zum Beispiel zeigen, dass sich die
Sequenzcharakteristika von Insertionen und Deletionen und ihrer direkten
genomischen Umgebung deutlich von jenen Signaturen unterscheiden, die man für
ungleiches Crossing over oder "Ausrutscher" der DNA-Polymerase während der
Replikation erwarten würde. Beiden Mechanismen werden üblicherweise als die
vorwiegenden Prozesse zur Generierung kurzer Insertionen und Deletionen
vermutet. Wir stellten daher die Hypothese auf, dass ein anderer Mechanismus,
die nicht-homologe End-zu-End-Verknüpfung zur Reparatur von
Doppelstrangbrüchen, in diesem Zusammenhang möglicherweise ebenfalls eine
wichtige Rolle spielt. Tandemduplikationen könnten sich auch als die Quelle so
genannter langreichweitiger Korrelationen in der Nukleotid-Zusammensetzung
eukaryotischer Genome erweisen. Trotz ihrer Allgegenwart werden die
zugrundeliegenden Entstehungsmechanismen dieser Korrelationen seit ihrer
Entdeckung vor mehr als zehn Jahren kontrovers diskutiert. Wir konnten unter
Verwendung formaler Methoden zur Analyse stochastischer Prozesse und
nichtlinearer dynamische Systeme zeigen, dass Modelle lokaler
Sequenzevolution, die auch Tandemduplikationsprozesse miteinbeziehen, zu einer
Universalitätsklasse eindimensionaler Expansions-Randominisierungs Systeme mit
langreichweitigen Korrelationen gehören. Der die Skalierungseigenschaften von
Korrelationsfunktionen in diesen Systemen definierende charakteristische
Exponent wurde explizit für mehrere Evolutionsdynamiken der Universitätsklasse
berechnet. Er wird von nur zwei effektiven Raten des jeweiligen dynamischen
Modells bestimmt. Auch komplexere Evolutionsszenarien, in denen die Raten der
Prozesse zeitlich und räumlich entlang der Sequenz variieren, wurden von uns
untersucht. Wir schlussfolgerten aus unserer Analyse, dass die beobachteten
langreichweitigen Korrelationen in der DNA durch Tandemduplikationsprozesse in
der Genomevolution generiert worden sein können. Der dominierende Anteil an
Tandemduplikationen unter DNA Insertionen hat weitgehende Konsequenzen für
statistische Aussagen bioinformatischer Methoden zur Sequenzanalyse, da sie
zur Berechnung von Signifikanzwerten ihrer Vorhersagen oft auf ein
Hintergrundmodel für DNA Sequenzen angewiesen sind. Wir konnten zum Beispiel
zeigen, dass sich die p-Werte für Ähnlichkeitsscores von Sequenzalignments
deutlich ändern, wenn man anstelle des Standard iid-Hintergrundmodells eines
mit langreichweitigen Korrelationen von genomischer Stärke verwendet. Das
Konzept duplikationsgetriebener Evolution von Genen ist seit längerem bekannt.
Es ist daher vielleicht gar nicht so überraschend, dass Tandemduplikationen
auch bei Mutationsprozessen auf kürzeren Längenskalen eine wichtige Rolle
spielen. Tatsächlich konnten wir zeigen, dass Duplikationen und Deletionen in
protein-kodierenden Bereichen des menschlichen Genoms weniger schädlich im
Vergleich zu nicht-synonymen Substitutionen sind, solange sie nicht das
Leseraster des Proteins verschieben. Tandemduplikationen könnten sich auch auf
kürzeren Längenskalen als wichtiger Motor zur schnellen Erzeugung neuer
genetischer Variation und Funktion erweisen, so wie es für Gene und längere
genomische Bereiche bereits allgemein anerkannt ist.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
evolutionary genomics
dc.subject
genome evolution
dc.subject
mutational processes
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Tandem Duplications in the Human Genome
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Nikolaus Rajewsky
dc.date.accepted
2008-03-20
dc.date.embargoEnd
2008-04-03
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000003650-8
dc.title.translated
Tandemduplikationen im menschlichen Genom
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000003650
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2008/223/
refubium.mycore.derivateId
FUDISS_derivate_000000003650
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access