In this thesis we explore the influence of DNA sequence on genomic elements that are involved in the regulation of genes. We approach this topic using tools from the field of machine learning, which provides established methods for identifying patterns in sequential data, in this case sequences of nucleotides. First, we show that the location and tissue-specificity of experimentally determined non-methylated regions of the genome can be predicted with high accuracy using the regions' DNA sequence. This analysis relies on new experimental methods that have been used to measure DNA methylation genome-wide, and their development has led to a shift away from relying on CpG islands as a proxy for non-methylated genomic regions. We demonstrate the high predictive performance of our method in two tissues across six different vertebrate species, as well as in ten human tissues, and show that the method we use outperforms existing methods that were designed to identify CpG islands. Next, we present a new approach to computationally predicting genomic enhancers. In contrast to existing methods, we combine the results of multiple complementary experimental methods to define the set of enhancers from which to learn patterns, and we use a machine learning method called co-training to enable us to incorporate this small set of high confidence enhancer regions as well as the rest of the genome into the training of our predictor. The enhancers are predicted based on both experimental data from ChIP-seq experiments and the DNA sequence of each region. We are able to show that our method achieves better predictive performance than other methods, and that co-training is particularly well suited for this problem because it is able to reduce the problem of overfitting.
In dieser Arbeit untersuchen wir den Einfluss der DNA-Sequenz auf Elemente des Genoms, welche die Genregulation beeinflussen. Zu diesem Zweck nutzen wir Ansätze aus dem Bereich des Maschinellen Lernens, da dieser etablierte Methoden zur Mustererkennung in Datensequenzen bereitstellt, welche wir hier auf Nukleotidsequenzen anwenden. Zunächst zeigen wir, dass wir die Lage und die Gewebsspezifität von experimentell bestimmten nichtmethylierten Regionen des Genoms mit hoher Genauigkeit vorhersagen können, indem wir die DNA-Sequenz der Region verwenden. Diese Analyse basiert auf neu entwickelten experimentellen Methoden zur Bestimmung von genomweiten DNA-Methylierungen, deren Entwicklung die CpG-Inseln als Grundlage zur Vorhersage von nichtmethylierte Regionen abgelöst hat. Wir demonstrieren die hohe Vorhersageleistung unserer Methode anhand von zwei Geweben in jeweils sechs verschiedenen Vertebratenspezies sowie auch in zehn Humangeweben. Darüberhinaus übertrifft unser Ansatz die Leistung anderer existierender Methoden, welche zur Identifizierung von CpG-Inseln entwickelt wurden. Des Weiteren präsentieren wir einen neuen Ansatz zur computerbasierten Vorhersage von genomischen Enhancern. Im Gegensatz zu bestehenden Methoden kombinieren wir die Ergebnisse von verschiedenen komplementären experimentellen Methoden um die Menge von Enhancern zu definieren, welche als Mustervorlage des Lernprozesses dient. Außerdem wird ein spezieller Algorithmus des Maschinellen Lernens genutzt, das Co-Training, welches es erlaubt, zum Trainieren des Prädiktors sowohl eine kleine Menge von Enhancerregionen mit hohem Konfidenzniveau als auch den Rest des Genoms zu integieren. Die Vorhersage der Enhancer basiert auf Daten von ChIP-seq Experimenten und der DNA-Sequenz jeder Region. Wir sind in der Lage zu zeigen, dass unser Ansatz eine bessere Vorhersageleistung erreicht als andere Methoden und, dass das Co-Training für diese Art von Problemen besonders gut geeignet ist, da es das Problem der Überanpassung reduziert.