dc.contributor.author
Squartini, Federico
dc.date.accessioned
2018-06-07T16:14:16Z
dc.date.available
2010-11-24T12:51:23.466Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/2234
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-6435
dc.description.abstract
The aim of this thesis was to present the concepts of stationarity and
reversibility in the modeling of the evolution of DNA nucleotide sequences,
and to check whether they are valid for evolution of real genomes. To this end
we have introduced the Stationarity Indices, STIs, which compare the current
nucleotide distribution to the stationary one, and the Irreversibility
Indices, IRIs, which are based on the Kolmogorov cycle conditions for the time
reversibility of a Markov process. The indices can be easily computed once we
have at disposal, using for example a maximum likelihood estimation, the rates
of the process. We derived explicit expressions of the indices for the general
12 parameters model of nucleotide evolution with independent sites. It is
interesting to note that assuming time-reversibility, which amounts to setting
the IRI indices to zero, defines a 9-dimensional sub-manifold of the
12-dimensional space of all possible models. This manifold is the one spanned
by the GTR model and its nested sub-models. We analyzed the analytical
formulation of the indices for the reverse complement symmetric models. This
particular parameterization arises in a natural way when describing evolution
of neutrally evolving sequences. In this case it turns out that both STI and
IRI have a simpler form. In particular one needs only one index,
$\text{IRI}_{1}$, in order to test time reversibility. So imposing the
constraint of time reversibility restricts the space of models to a
5-dimensional manifold in the 6-dimensional space of all the possible reverse
complement symmetric models. We have successively extended the scope of our
study to an evolutionary model which takes into account the $\CpG$ decay
process, the predominant substitution process in vertebrates. This approach
based on a set of indices is complementary to the one using a likelihood ratio
test, and it has the advantage that it simultaneously assesses stationarity
and time-reversibilty for all branches of a given phylogeny once the rate
matrices have been estimated. On the contrary, a likelihood ratio test
requires a comparison of different hypotheses on different branches and a new
estimation of the parameters for each of them. When testing for all
combinations the number of likelihood ratio tests required grows exponentially
with the number of branches in the phylogeny. As an application of the theory
we have measured the STI and IRI in two different species lineages, D.
simulans and H. sapiens. Using a sliding window analysis and the maximum
likelihood estimation method we have derived the distributions of $\text{STI}$
and $\text{IRI}_{1}$ for Drosophila, and of $\text{STI}$, $\text{IRI}_{1}$ and
$\text{IRI}_{\text{\CpG}}$ for human. In both cases we find statistically
significant deviations from equilibrium and time reversibility. In D.
simulans, the values of $\text{STI}$ and $\text{IRI}_{1}$ are close to zero,
suggesting that it is legitimate to use a time reversible Markov model in
bioinformatics algorithms, for instance in those used for phylogenetic
reconstruction. However, in the human lineage, we find substantial deviations
from equilibrium and time-reversibility due to the CpG methylation deamination
process, in particular $\text{IRI}_{\text{\CpG}}\approx 1$. In this case, the
lack of equilibrium and time-reversibility is an important feature of the
probabilistic model and consequently should not be disregarded.
de
dc.description.abstract
Ziel dieser Arbeit war es, die Bedingungen für Stationarität und
Zeitreversibilität in Bezug auf die Modellierung der Evolution von DNS
Sequenzen vorzustellen und zu überprüfen, ob diese Gegebenheiten bei der
Evolution von genomischen DNS Sequenzen zutreffen. Zu diesem Zweck wurden
Statinaritätsindices (STIs) die die derzeitige Nukleotidverteilung mit
stationärer Nukleotidverteilung vergleichen, und Irrevesibilitätsindizes
(IRIs), die auf Kolmogorovs Bedingungen für Zyklen zurückgehen, eingeführt.
Diese Indizes können einfach errechnet werden, sobald die Raten des
evolutionären Prozesses bekannt sind, z.B. durch eine Schätzung mittels
Maximum Likelihood Verfahren. Es wurden explizite Ausdrücke für diese Indizes
für das generelle 12 Parameter Modell der Evolution von DNS Sequenzen ohne
Nachbarabhängigkeiten hergeleitet. Es ist interessant zu beobachten, dass
unter der Annahme von Zeitreversibilität die drei IRIs verschwinden müssen und
diese Bedingungen eine 9-dimensionale Untermannigfaltigkeit in dem
12-dimensionalen Raum aller Modelle aufspannen. Diese Untermannigfaltigkeit
ist die des GTR Modells und aller seiner Untermodelle. Des Weiteren wurden
diese Indizes für Modelle mit einer zusätzlichen Symmetrie, der reversen
Komplementarität, die bei der Beschreibung von neutraler Evolution der
doppelsträngigen DNS gegeben ist, hergeleitet. Unter dieser Symmetrie nehmen
die Indizes eine einfachere Form an. Insbesondere gibt es nur noch einen
Irreversibilitätsindex. Im zeitreversiblen Fall wird dadurch eine
5-dimensionale Untermannigfaltigkeit in dem 6-dimensionalen Raum der reversen
komplementen Modelle beschrieben. Darüber hinaus wurden diese Konzepte auch
für die Evolution von DNS Sequenzen mit Nachbarabhängigkeiten verallgemeinert,
wie sie zum Beispiel durch den $\CpG$ Methylierungs- und Deaminationsprozess,
der vor allem in Wirbeltieren ein sehr verbreiteter Mutationsprozess ist,
entstehen. Dieser Zugang, die Stationarität und Zeitreversibilität anhand von
Indizes zu prüfen, ist insbesondere bei großen phylogenetischen Bäumen einem
Likelihood Ratio Test vorzuziehen, da er eine unabhängige überprüfung dieser
Annahmen auf jedem Ast der Phylogenie zulässt. Ein Likelihood Ratio Test
müsste demgegenüber alle möglichen Kombinationen berücksichtigen und deshalb
exponentiell viel häufiger ausgeführt werden. Im Rahmen einer Anwendung
unserer theoretischen überlegungen, wurden die IRIs und STIs für die
Nukleotidevolution in der menschlichen Linie (Homo Sapiens) und in der
Fruchtfliege (Drosophila Simulans) berechnet. Die Indizes wurden in
verschiedenen Regionen aus den Mutationsraten berechnet, welche mittels
Maximum Likelihood Methode gemessenen worden waren. In beiden Spezies fanden
wir statistisch signifikante Abweichungen der Stationarität und
Zeitreversibilität. In der Fruchtfliege sind die Abweichungen klein und die
Verwendung von bioinformatischen Methoden, die diese Annahmen machen,
erscheint legitim. In der menschlichen Linie allerdings sind die Abweichungen
substanziell größer, was zuallererst auf die $\CpG$ Methylierung und
Deamination zurückzuführen ist. In diesem Falle ist das Nichtvorhandensein von
Stationarität und Zeitreversibilität eine Tatsache, die bei der statistischen
Beschreibung und Modellierung nicht vernachlässigt werden sollte.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Markov process
dc.subject
time reversibility
dc.subject
sequence evolution
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::572 Biochemie
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke
dc.title
Stationarity and reversibility in the nucleotide evolutionary process
dc.contributor.firstReferee
Vigron, Martin
dc.contributor.furtherReferee
von Haeseler, Arndt
dc.date.accepted
2010-05-03
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000019573-9
dc.title.translated
Stationarität und Reversibilität des evolutionären Nukleotidaustauschprozesses
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000019573
refubium.mycore.derivateId
FUDISS_derivate_000000008458
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access