The aim of this thesis was to present the concepts of stationarity and reversibility in the modeling of the evolution of DNA nucleotide sequences, and to check whether they are valid for evolution of real genomes. To this end we have introduced the Stationarity Indices, STIs, which compare the current nucleotide distribution to the stationary one, and the Irreversibility Indices, IRIs, which are based on the Kolmogorov cycle conditions for the time reversibility of a Markov process. The indices can be easily computed once we have at disposal, using for example a maximum likelihood estimation, the rates of the process. We derived explicit expressions of the indices for the general 12 parameters model of nucleotide evolution with independent sites. It is interesting to note that assuming time-reversibility, which amounts to setting the IRI indices to zero, defines a 9-dimensional sub-manifold of the 12-dimensional space of all possible models. This manifold is the one spanned by the GTR model and its nested sub-models. We analyzed the analytical formulation of the indices for the reverse complement symmetric models. This particular parameterization arises in a natural way when describing evolution of neutrally evolving sequences. In this case it turns out that both STI and IRI have a simpler form. In particular one needs only one index, $\text{IRI}_{1}$, in order to test time reversibility. So imposing the constraint of time reversibility restricts the space of models to a 5-dimensional manifold in the 6-dimensional space of all the possible reverse complement symmetric models. We have successively extended the scope of our study to an evolutionary model which takes into account the $\CpG$ decay process, the predominant substitution process in vertebrates. This approach based on a set of indices is complementary to the one using a likelihood ratio test, and it has the advantage that it simultaneously assesses stationarity and time-reversibilty for all branches of a given phylogeny once the rate matrices have been estimated. On the contrary, a likelihood ratio test requires a comparison of different hypotheses on different branches and a new estimation of the parameters for each of them. When testing for all combinations the number of likelihood ratio tests required grows exponentially with the number of branches in the phylogeny. As an application of the theory we have measured the STI and IRI in two different species lineages, D. simulans and H. sapiens. Using a sliding window analysis and the maximum likelihood estimation method we have derived the distributions of $\text{STI}$ and $\text{IRI}_{1}$ for Drosophila, and of $\text{STI}$, $\text{IRI}_{1}$ and $\text{IRI}_{\text{\CpG}}$ for human. In both cases we find statistically significant deviations from equilibrium and time reversibility. In D. simulans, the values of $\text{STI}$ and $\text{IRI}_{1}$ are close to zero, suggesting that it is legitimate to use a time reversible Markov model in bioinformatics algorithms, for instance in those used for phylogenetic reconstruction. However, in the human lineage, we find substantial deviations from equilibrium and time-reversibility due to the CpG methylation deamination process, in particular $\text{IRI}_{\text{\CpG}}\approx 1$. In this case, the lack of equilibrium and time-reversibility is an important feature of the probabilistic model and consequently should not be disregarded.
Ziel dieser Arbeit war es, die Bedingungen für Stationarität und Zeitreversibilität in Bezug auf die Modellierung der Evolution von DNS Sequenzen vorzustellen und zu überprüfen, ob diese Gegebenheiten bei der Evolution von genomischen DNS Sequenzen zutreffen. Zu diesem Zweck wurden Statinaritätsindices (STIs) die die derzeitige Nukleotidverteilung mit stationärer Nukleotidverteilung vergleichen, und Irrevesibilitätsindizes (IRIs), die auf Kolmogorovs Bedingungen für Zyklen zurückgehen, eingeführt. Diese Indizes können einfach errechnet werden, sobald die Raten des evolutionären Prozesses bekannt sind, z.B. durch eine Schätzung mittels Maximum Likelihood Verfahren. Es wurden explizite Ausdrücke für diese Indizes für das generelle 12 Parameter Modell der Evolution von DNS Sequenzen ohne Nachbarabhängigkeiten hergeleitet. Es ist interessant zu beobachten, dass unter der Annahme von Zeitreversibilität die drei IRIs verschwinden müssen und diese Bedingungen eine 9-dimensionale Untermannigfaltigkeit in dem 12-dimensionalen Raum aller Modelle aufspannen. Diese Untermannigfaltigkeit ist die des GTR Modells und aller seiner Untermodelle. Des Weiteren wurden diese Indizes für Modelle mit einer zusätzlichen Symmetrie, der reversen Komplementarität, die bei der Beschreibung von neutraler Evolution der doppelsträngigen DNS gegeben ist, hergeleitet. Unter dieser Symmetrie nehmen die Indizes eine einfachere Form an. Insbesondere gibt es nur noch einen Irreversibilitätsindex. Im zeitreversiblen Fall wird dadurch eine 5-dimensionale Untermannigfaltigkeit in dem 6-dimensionalen Raum der reversen komplementen Modelle beschrieben. Darüber hinaus wurden diese Konzepte auch für die Evolution von DNS Sequenzen mit Nachbarabhängigkeiten verallgemeinert, wie sie zum Beispiel durch den $\CpG$ Methylierungs- und Deaminationsprozess, der vor allem in Wirbeltieren ein sehr verbreiteter Mutationsprozess ist, entstehen. Dieser Zugang, die Stationarität und Zeitreversibilität anhand von Indizes zu prüfen, ist insbesondere bei großen phylogenetischen Bäumen einem Likelihood Ratio Test vorzuziehen, da er eine unabhängige überprüfung dieser Annahmen auf jedem Ast der Phylogenie zulässt. Ein Likelihood Ratio Test müsste demgegenüber alle möglichen Kombinationen berücksichtigen und deshalb exponentiell viel häufiger ausgeführt werden. Im Rahmen einer Anwendung unserer theoretischen überlegungen, wurden die IRIs und STIs für die Nukleotidevolution in der menschlichen Linie (Homo Sapiens) und in der Fruchtfliege (Drosophila Simulans) berechnet. Die Indizes wurden in verschiedenen Regionen aus den Mutationsraten berechnet, welche mittels Maximum Likelihood Methode gemessenen worden waren. In beiden Spezies fanden wir statistisch signifikante Abweichungen der Stationarität und Zeitreversibilität. In der Fruchtfliege sind die Abweichungen klein und die Verwendung von bioinformatischen Methoden, die diese Annahmen machen, erscheint legitim. In der menschlichen Linie allerdings sind die Abweichungen substanziell größer, was zuallererst auf die $\CpG$ Methylierung und Deamination zurückzuführen ist. In diesem Falle ist das Nichtvorhandensein von Stationarität und Zeitreversibilität eine Tatsache, die bei der statistischen Beschreibung und Modellierung nicht vernachlässigt werden sollte.