dc.contributor.author
Huska, Matthew R.
dc.date.accessioned
2018-06-07T17:53:32Z
dc.date.available
2018-02-16T09:32:08.741Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/4397
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-8597
dc.description.abstract
In this thesis we explore the influence of DNA sequence on genomic elements
that are involved in the regulation of genes. We approach this topic using
tools from the field of machine learning, which provides established methods
for identifying patterns in sequential data, in this case sequences of
nucleotides. First, we show that the location and tissue-specificity of
experimentally determined non-methylated regions of the genome can be
predicted with high accuracy using the regions' DNA sequence. This analysis
relies on new experimental methods that have been used to measure DNA
methylation genome-wide, and their development has led to a shift away from
relying on CpG islands as a proxy for non-methylated genomic regions. We
demonstrate the high predictive performance of our method in two tissues
across six different vertebrate species, as well as in ten human tissues, and
show that the method we use outperforms existing methods that were designed to
identify CpG islands. Next, we present a new approach to computationally
predicting genomic enhancers. In contrast to existing methods, we combine the
results of multiple complementary experimental methods to define the set of
enhancers from which to learn patterns, and we use a machine learning method
called co-training to enable us to incorporate this small set of high
confidence enhancer regions as well as the rest of the genome into the
training of our predictor. The enhancers are predicted based on both
experimental data from ChIP-seq experiments and the DNA sequence of each
region. We are able to show that our method achieves better predictive
performance than other methods, and that co-training is particularly well
suited for this problem because it is able to reduce the problem of
overfitting.
de
dc.description.abstract
In dieser Arbeit untersuchen wir den Einfluss der DNA-Sequenz auf Elemente des
Genoms, welche die Genregulation beeinflussen. Zu diesem Zweck nutzen wir
Ansätze aus dem Bereich des Maschinellen Lernens, da dieser etablierte
Methoden zur Mustererkennung in Datensequenzen bereitstellt, welche wir hier
auf Nukleotidsequenzen anwenden. Zunächst zeigen wir, dass wir die Lage und
die Gewebsspezifität von experimentell bestimmten nichtmethylierten Regionen
des Genoms mit hoher Genauigkeit vorhersagen können, indem wir die DNA-Sequenz
der Region verwenden. Diese Analyse basiert auf neu entwickelten
experimentellen Methoden zur Bestimmung von genomweiten DNA-Methylierungen,
deren Entwicklung die CpG-Inseln als Grundlage zur Vorhersage von
nichtmethylierte Regionen abgelöst hat. Wir demonstrieren die hohe
Vorhersageleistung unserer Methode anhand von zwei Geweben in jeweils sechs
verschiedenen Vertebratenspezies sowie auch in zehn Humangeweben.
Darüberhinaus übertrifft unser Ansatz die Leistung anderer existierender
Methoden, welche zur Identifizierung von CpG-Inseln entwickelt wurden. Des
Weiteren präsentieren wir einen neuen Ansatz zur computerbasierten Vorhersage
von genomischen Enhancern. Im Gegensatz zu bestehenden Methoden kombinieren
wir die Ergebnisse von verschiedenen komplementären experimentellen Methoden
um die Menge von Enhancern zu definieren, welche als Mustervorlage des
Lernprozesses dient. Außerdem wird ein spezieller Algorithmus des Maschinellen
Lernens genutzt, das Co-Training, welches es erlaubt, zum Trainieren des
Prädiktors sowohl eine kleine Menge von Enhancerregionen mit hohem
Konfidenzniveau als auch den Rest des Genoms zu integieren. Die Vorhersage der
Enhancer basiert auf Daten von ChIP-seq Experimenten und der DNA-Sequenz jeder
Region. Wir sind in der Lage zu zeigen, dass unser Ansatz eine bessere
Vorhersageleistung erreicht als andere Methoden und, dass das Co-Training für
diese Art von Problemen besonders gut geeignet ist, da es das Problem der
Überanpassung reduziert.
de
dc.format.extent
viii, 143 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
machine learning
dc.subject
DNA methylation
dc.subject
computational biology
dc.subject
support vector machine
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Using Machine Learning to Predict and Better Understand DNA Methylation and
Genomic Enhancers
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
em. Prof. Dr. Joachim Selbig
dc.date.accepted
2017-12-15
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000106413-5
dc.title.translated
Vorhersage und verbessertes Verständnis von DNA Methylierung und genomischen
Enhancern mittels Maschinellen Lernens
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000106413
refubium.mycore.derivateId
FUDISS_derivate_000000023222
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access