Invariants (conservation laws) have served as the ultimate cornerstones of mathematical and physical theories from the early days of science to modern times. For example, the initial name of Einstein's theory was “Invariantentheorie”, and Klein in the “Erlanger Programm” saw geometry as the study of invariants under a group of transformations. However, in molecular evolution theories, the widely observed phenotype invariance, i.e. its preservation through generations, is not matched with any genomic sequence invariants. On the contrary, the genomic sequences are perceived to be quite fluid, evolving rapidly and opportunistically, frequently “neutrally”. The classical models of molecular evolution were elaborated more than 40 years ago with an extreme paucity of data. The consequent development of molecular evolution theory was primarily haphazard and superficial: minor ad hoc assumptions were introduced to fit newly obtained data but the core of these models remained unchanged. The concepts were expanded upon with more details and assumptions, becoming cumbersome and losing the ability of making verifiable predictions or explanations of observable phenomena. This lack of general fundamental principles has led to the crisis of molecular evolution theory. Current technologies supply us with an enormous amount of molecular data, allowing a deeper look into genome functionality, and demand a more profound understanding of genomic functionality. This work introduces a novel paradigm into molecular evolution theory by proposing an invariant property of the genomic sequence, which does not vary at all or only slowly from generation to generation, while allowing the underlying sequences to change rapidly. The introduction of the invariant leads to more a “physical” and less opportunistic view on sequence evolution and provides testable predictions. The well-developed apparatus of Shannon’s informational theory is used as a mathematical framework of the model. A functional site is regarded as a positional probabilistic pattern, where each position of the pattern is a four-vector of nucleotide probabilities in the equilibrium population (i.e. abstract infinite population that has evolved for an infinite time without any disruptive events). Introducing the invariant allows us to simulate the genetic information dynamics and to apply basic physical principles such as the optimal efficiency and channel capacity. The model demonstrates a fundamental possibility of error-free information storage in sequences possessing arbitrarily low conservation. I show that the rate of beneficial mutations can be high in general—the lower the sequence conservation the higher the frequency of beneficial mutations. Experimental data demonstrates the tendency of real functional sites to optimization according to the proposed optimality criterion. The model allows a fresh look at the well-known phenomena (e.g. it demonstrates that the “Molecular clock” and “Drake’s rule” possibly emerge out of common underlying process). It is also able to provide reasonable explanations for some paradoxes (e.g. “Paradox of Variation”) which are lacking a clear interpretation in the framework of classical theories. Therefore I believe that further development of the model will facilitate a deeper understanding of molecular evolution and population genetics processes.
Invarianten (Erhaltungssätze) dienten mathematischen und physikalischen Theorien als grundlegende Eckpfeiler, von der Frühzeit der Wissenschaft bis in die Neuzeit. So war beispielsweise die erste Bezeichnung für Einsteins Theorie „Invariantentheorie“ und Klein erachtete die Geometrie in seinem „Erlanger Programm“ als das Studium von Invarianten unter einer Transformationsgruppe. In den Theorien der molekularen Evolution hingegen wird die vielfach beobachtete Invarianz des Phänotyps, d. h. sein Erhalt über Generationen hinweg, nicht mit invarianten Genomsequenzen gleichgesetzt. Im Gegenteil, die Genomsequenzen werden als recht veränderlich betrachtet; sie entwickeln sich schnell und opportunistisch, oftmals „neutral“. Die klassischen Modelle der molekularen Evolution wurden vor mehr als 40 Jahren entwickelt, wobei damals keine umfassenden Datenmengen zur Verfügung standen. Die folgende Entwicklung der Theorie der molekularen Evolution war zunächst willkürlich und oberflächlich: unwesentliche Ad-hoc-Annahmen wurden eingeführt, um neu gewonnenen Daten zu entsprechen. Der Kern dieser Modelle blieb jedoch unverändert. Die Konzepte wurden mit mehr Details und Annahmen weiter ausgeführt, wodurch sie kompliziert wurden und die Fähigkeit verloren, nachweisbare Vorhersagen oder Erklärungen zu beobachtbaren Phänomenen abzugeben. Das Fehlen allgemeiner Grundprinzipien führte zur Krise der Theorie der molekularen Evolution. Heutige Technologien versorgen uns mit einer Unmenge an molekularen Daten, was einen tieferen Einblick in die Funktionsweise von Genomen ermöglicht und ein tiefgehenderes Verständnis der Funktionsweise von Genomen erfordert. Diese Arbeit führt ein neues Paradigma in die Theorie der molekularen Evolution ein, indem eine invariante Eigenschaft der Genomsequenz eingebracht wird, die sich nicht oder nur langsam von Generation zu Generation ändert, während sich die Grundsequenzen schnell ändern können. Die Einführung der Invariante führt zu einer eher „physikalischen“ und weniger opportunistischen Sicht auf die Sequenzevolution und liefert prüfbare Vorhersagen. Das weit entwickelte System aus Shannons Informationstheorie wird als mathematischer Rahmen des Modells verwendet. Ein funktioneller Ort wird als ein positionell wahrscheinliches „Pattern“ betrachtet, wo jede Position des „Patterns“ einen Vierervektor von Nukleotidwahrscheinlichkeiten in der Gleichgewichtspopulation (d. h. abstrakte unendliche Population, die sich über einen unbegrenzten Zeitraum ohne störende Ereignisse entwickelt hat) darstellt. Die Einführung der Invariante ermöglicht uns die Simulation der Geninformationsdynamiken und die Anwendung grundlegender physikalischer Prinzipien, wie die optimale Effizienz und Kanalkapazität. Das Modell beweist die grundsätzliche Möglichkeit einer fehlerfreien Informationsspeicherung in Sequenzen, deren Erhaltung willkürlich gering ist. Ich beweise, dass die Rate vorteilhafter Mutationen im Allgemeinen hoch sein kann. Je geringer die Sequenzerhaltung, desto höher die Frequenz der vorteilhaften Mutationen. Die Versuchsergebnisse zeigen die Tendenz wirklich funktioneller Orte zur Optimierung, in Übereinstimmung mit dem eingebrachten Optimalitätskriterium. Das Modell ermöglicht einen frischen Blick auf das wohlbekannte Phänomen (es zeigt beispielsweise, dass die „Molekulare Uhr“ und „Drake’s Rule“ möglicherweise aus einem gemeinsamen Prozess heraus entstehen). Es kann ebenfalls sinnvolle Erklärungen für einige Paradoxa (z. B. „Paradox of Variation“) liefern, denen es im Rahmen klassischer Theorien an einer eindeutigen Interpretation mangelt. Daher glaube ich, dass die Weiterentwicklung des Modells ein tieferes Verständnis der molekularen Evolution und populationsgenetischer Prozesse vermitteln wird.