dc.contributor.author
Shadrin, Alexey
dc.date.accessioned
2018-06-08T00:17:17Z
dc.date.available
2014-10-31T10:38:48.188Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/11721
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-15919
dc.description.abstract
Invariants (conservation laws) have served as the ultimate cornerstones of
mathematical and physical theories from the early days of science to modern
times. For example, the initial name of Einstein's theory was
“Invariantentheorie”, and Klein in the “Erlanger Programm” saw geometry as the
study of invariants under a group of transformations. However, in molecular
evolution theories, the widely observed phenotype invariance, i.e. its
preservation through generations, is not matched with any genomic sequence
invariants. On the contrary, the genomic sequences are perceived to be quite
fluid, evolving rapidly and opportunistically, frequently “neutrally”. The
classical models of molecular evolution were elaborated more than 40 years ago
with an extreme paucity of data. The consequent development of molecular
evolution theory was primarily haphazard and superficial: minor ad hoc
assumptions were introduced to fit newly obtained data but the core of these
models remained unchanged. The concepts were expanded upon with more details
and assumptions, becoming cumbersome and losing the ability of making
verifiable predictions or explanations of observable phenomena. This lack of
general fundamental principles has led to the crisis of molecular evolution
theory. Current technologies supply us with an enormous amount of molecular
data, allowing a deeper look into genome functionality, and demand a more
profound understanding of genomic functionality. This work introduces a novel
paradigm into molecular evolution theory by proposing an invariant property of
the genomic sequence, which does not vary at all or only slowly from
generation to generation, while allowing the underlying sequences to change
rapidly. The introduction of the invariant leads to more a “physical” and less
opportunistic view on sequence evolution and provides testable predictions.
The well-developed apparatus of Shannon’s informational theory is used as a
mathematical framework of the model. A functional site is regarded as a
positional probabilistic pattern, where each position of the pattern is a
four-vector of nucleotide probabilities in the equilibrium population (i.e.
abstract infinite population that has evolved for an infinite time without any
disruptive events). Introducing the invariant allows us to simulate the
genetic information dynamics and to apply basic physical principles such as
the optimal efficiency and channel capacity. The model demonstrates a
fundamental possibility of error-free information storage in sequences
possessing arbitrarily low conservation. I show that the rate of beneficial
mutations can be high in general—the lower the sequence conservation the
higher the frequency of beneficial mutations. Experimental data demonstrates
the tendency of real functional sites to optimization according to the
proposed optimality criterion. The model allows a fresh look at the well-known
phenomena (e.g. it demonstrates that the “Molecular clock” and “Drake’s rule”
possibly emerge out of common underlying process). It is also able to provide
reasonable explanations for some paradoxes (e.g. “Paradox of Variation”) which
are lacking a clear interpretation in the framework of classical theories.
Therefore I believe that further development of the model will facilitate a
deeper understanding of molecular evolution and population genetics processes.
de
dc.description.abstract
Invarianten (Erhaltungssätze) dienten mathematischen und physikalischen
Theorien als grundlegende Eckpfeiler, von der Frühzeit der Wissenschaft bis in
die Neuzeit. So war beispielsweise die erste Bezeichnung für Einsteins Theorie
„Invariantentheorie“ und Klein erachtete die Geometrie in seinem „Erlanger
Programm“ als das Studium von Invarianten unter einer Transformationsgruppe.
In den Theorien der molekularen Evolution hingegen wird die vielfach
beobachtete Invarianz des Phänotyps, d. h. sein Erhalt über Generationen
hinweg, nicht mit invarianten Genomsequenzen gleichgesetzt. Im Gegenteil, die
Genomsequenzen werden als recht veränderlich betrachtet; sie entwickeln sich
schnell und opportunistisch, oftmals „neutral“. Die klassischen Modelle der
molekularen Evolution wurden vor mehr als 40 Jahren entwickelt, wobei damals
keine umfassenden Datenmengen zur Verfügung standen. Die folgende Entwicklung
der Theorie der molekularen Evolution war zunächst willkürlich und
oberflächlich: unwesentliche Ad-hoc-Annahmen wurden eingeführt, um neu
gewonnenen Daten zu entsprechen. Der Kern dieser Modelle blieb jedoch
unverändert. Die Konzepte wurden mit mehr Details und Annahmen weiter
ausgeführt, wodurch sie kompliziert wurden und die Fähigkeit verloren,
nachweisbare Vorhersagen oder Erklärungen zu beobachtbaren Phänomenen
abzugeben. Das Fehlen allgemeiner Grundprinzipien führte zur Krise der Theorie
der molekularen Evolution. Heutige Technologien versorgen uns mit einer
Unmenge an molekularen Daten, was einen tieferen Einblick in die
Funktionsweise von Genomen ermöglicht und ein tiefgehenderes Verständnis der
Funktionsweise von Genomen erfordert. Diese Arbeit führt ein neues Paradigma
in die Theorie der molekularen Evolution ein, indem eine invariante
Eigenschaft der Genomsequenz eingebracht wird, die sich nicht oder nur langsam
von Generation zu Generation ändert, während sich die Grundsequenzen schnell
ändern können. Die Einführung der Invariante führt zu einer eher
„physikalischen“ und weniger opportunistischen Sicht auf die Sequenzevolution
und liefert prüfbare Vorhersagen. Das weit entwickelte System aus Shannons
Informationstheorie wird als mathematischer Rahmen des Modells verwendet. Ein
funktioneller Ort wird als ein positionell wahrscheinliches „Pattern“
betrachtet, wo jede Position des „Patterns“ einen Vierervektor von
Nukleotidwahrscheinlichkeiten in der Gleichgewichtspopulation (d. h. abstrakte
unendliche Population, die sich über einen unbegrenzten Zeitraum ohne störende
Ereignisse entwickelt hat) darstellt. Die Einführung der Invariante ermöglicht
uns die Simulation der Geninformationsdynamiken und die Anwendung
grundlegender physikalischer Prinzipien, wie die optimale Effizienz und
Kanalkapazität. Das Modell beweist die grundsätzliche Möglichkeit einer
fehlerfreien Informationsspeicherung in Sequenzen, deren Erhaltung willkürlich
gering ist. Ich beweise, dass die Rate vorteilhafter Mutationen im Allgemeinen
hoch sein kann. Je geringer die Sequenzerhaltung, desto höher die Frequenz der
vorteilhaften Mutationen. Die Versuchsergebnisse zeigen die Tendenz wirklich
funktioneller Orte zur Optimierung, in Übereinstimmung mit dem eingebrachten
Optimalitätskriterium. Das Modell ermöglicht einen frischen Blick auf das
wohlbekannte Phänomen (es zeigt beispielsweise, dass die „Molekulare Uhr“ und
„Drake’s Rule“ möglicherweise aus einem gemeinsamen Prozess heraus entstehen).
Es kann ebenfalls sinnvolle Erklärungen für einige Paradoxa (z. B. „Paradox of
Variation“) liefern, denen es im Rahmen klassischer Theorien an einer
eindeutigen Interpretation mangelt. Daher glaube ich, dass die
Weiterentwicklung des Modells ein tieferes Verständnis der molekularen
Evolution und populationsgenetischer Prozesse vermitteln wird.
de
dc.format.extent
V, 109 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Sequence Pattern
dc.subject
Information Theory
dc.subject
Genetic Information Conservation
dc.subject
Molecular evolution
dc.subject
Neutral theory
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::576 Genetik und Evolution
dc.title
Positional Information Storage in Sequence Patterns
dc.contributor.contact
inter.cm@outlook.com
dc.contributor.firstReferee
Prof. Dr. Christof Schütte
dc.contributor.furtherReferee
Prof. Dr. Andrey Grigoriev
dc.date.accepted
2014-09-24
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000097752-8
dc.title.translated
Örtliche Konservierung von Informationsmustern in Sequenzen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000097752
refubium.mycore.derivateId
FUDISS_derivate_000000015960
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access