Learning the Non-Coding Genome

Schubach, Max

Learning the Non-Coding Genome

Metadaten

dc.contributor.author

Schubach, Max

dc.date.accessioned

2018-11-30T08:33:32Z

dc.date.available

2018-11-30T08:33:32Z

dc.date.issued

2018

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/23332

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-1120

dc.description.abstract

The interpretation of the non-coding genome still constitutes a major challenge in the application of whole-genome sequencing. For example, disease and trait-associated variants represent a tiny minority of all known genetic variations, but millions of putatively neutral sites can be identified. In this context, machine learning (ML) methods for predicting disease-associated non-coding variants are faced with a chicken-and-egg problem – such variants cannot be easily found without ML, but ML cannot be applied efficiently until a sufficient number of instances have been found. Recent ML-based methods for variant prediction do not adopt specific imbalance-aware learning techniques to deal with imbalanced data that naturally arise in several genome-wide variant scoring problems, resulting in relatively poor performance with reduced sensitivity and precision. In this work, I present a ML algorithm, called hyperSMURF, that adopts imbalance-aware learning strategies based on resampling techniques and a hyper-ensemble approach which is able to handle extremely imbalanced datasets. It outperforms previous methods in the context of non-coding variants associated with Mendelian diseases or complex diseases. I show that imbalance-aware ML is a key issue for the design of robust and accurate prediction algorithms. Open-source implementations of hyperSMURF are available in R and Java, such that it can be applied effectively in other scientific projects to discover disease-associated variants out of millions of neutral sites from whole-genome sequencing. In addition the algorithm was used to create a new pathogenicity score for regulatory Mendelian mutations (ReMM score), which is significantly better than other commonly used scores to rank regulatory variants from rare genetic disorders. The score is integrated in Genomiser, an analysis framework that goes beyond scoring the relevance of variation in the non-coding genome. The tool is able to associate regulatory variants to specific Mendelian diseases. Genomiser scores variants through pathogenicity scores, like ReMM score for non-coding, and combines them with allele frequency, regulatory sequences, chromosomal topological domains, and phenotypic relevance to discover variants associated to specific Mendelian disorders. Overall, Genomiser is able to identify causal regulatory variants, allowing effective detection and discovery of regulatory variants in Mendelian disease.

dc.description.abstract

Bei der Genomsequenzierung stellt die Interpretation der nicht-kodierenden Bereiche des Genomes immer noch eine bedeutende Herausforderung dar. Im Vergleich zu den häufigen, meist neutralen, genetischen Veränderungen stellen Varianten, welche mit Krankheiten oder anderen Eigenschaften assoziiert sind, eine winzige Minderheit dar. In diesem Sinne stehen Methoden zur Vorhersage von nicht-kodierenden, krankheitsassozierten Varianten durch Maschinelles Lernen (ML) dem Henne-Ei-Problem gegenüber – solche Veränderungen sind ohne ML schwierig zu finden, aber ML ist meistens erst dann erfolgreich, wenn eine ausreichende Anzahl von Beispielen gefunden wurde. Die neuesten Methoden zur Vorhersage von Varianten durch ML integrieren keine speziellen Vorhersagetechniken um dieses Ungleichgewicht zu behandeln, was zu einer relativ schlechten Performanz mit reduzierter Sensitivität führt, da die zugrundeliegenden Anwendungen zur genomweiten Bewertung von Varianten nicht im Gleichgewicht sind. In dieser Arbeit stelle ich hyperSMURF vor, einen Algorithmus, der Verfahren zum Lernen von Daten mit extremer Differenz zwischen Observationsmengen benutzt, basierend auf Techniken zur Stichprobewiederholung und einer Hyper-Vereinigung. Im Bereich von nicht-kodierenden Varianten, welche mit Mendel’schen oder komplexen Erkrankungen assoziiert sind, übertrifft er vorherige Methoden. Ich zeige, dass das ML durch explizit entwickelte Techniken für Daten mit hohem Ungleichgewicht ein Schlüsselkonzept für eine robuste und genaue Vorhersage in diesem Bereich ist. HyperSMURF ist open-source und in R und Java implementiert und kann somit mühelos in anderen Wissenschaftsprojekten genutzt werden um krankheits-assoziierte Varianten unter Millionen von neutralen Veränderngen bei Genomsequenzierung zu finden. Des Weiteren wurde mit Hilfe des Algorithmus eine neue Bewertungsfunktion für Mendel’sche regulatorische Mutationen entwickelt (ReMM score). Sie ist signifikant besser als andere Bewertungen zum Erkennen von regulatorischen Varianten bei seltenen genetischen Funktions- störungen. ReMM score ist in dem Analyseframework Genomiser integriert, welches nicht nur kodierende, sondern auch relevante nicht-kodierende genomische Varianten bewertet und diese dann einer Erkrankung zuordnen kann. Genomiser benutzt hierfür Bewertungsfunktionen und kombiniert diese mit Allelefrequenzen, der Raumstruktur von Chromosomen und der phänotypischen Relevanz von Varianten zu bekannten Syndromen. Dadurch wird Genomiser zu einem effizienten Tool zur Entdeckung von neuen regulatorischen Varianten bei Medel’schen Erkrankungen.

dc.format.extent

xv, 172 Seiten

dc.language

eng

dc.rights.uri

https://creativecommons.org/licenses/by/4.0/

dc.subject

regulatory variants

dc.subject

imbalanced machine learning

dc.subject

pathogenicity score

dc.subject

Mendelian disease

dc.subject

whole-genome sequencing

dc.subject.ddc

000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik

dc.subject.ddc

500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::576 Genetik und Evolution

dc.subject.ddc

000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::005 Computerprogrammierung, Programme, Daten

dc.title

Learning the Non-Coding Genome

dc.type

Dissertation

dcterms.format

Bild

dcterms.format

Text

dc.contributor.gender

male

dc.contributor.firstReferee

Robinson, Peter Nick

dc.contributor.furtherReferee

Piro, Rosario Michael

dc.contributor.furtherReferee

Valentini, Giorgio

dc.date.accepted

2018-09-20

dc.identifier.urn

urn:nbn:de:kobv:188-refubium-23332-7

refubium.affiliation

Mathematik und Informatik

dcterms.accessRights.dnb

free

dcterms.accessRights.openaire

open access

dcterms.accessRights.proquest

Zur Kurzanzeige

Das Dokument erscheint in:

Dissertationen FU

Dateien zu dieser Ressource

Dissertation_Schubach.pdf

Größe: 10.34MB

Format: PDF

Prüfsumme (MD5): f42f487fe94a686e82573142dcef6a3c

Öffnen

Learning the Non-Coding Genome

Refubium - Repositorium der Freien Universität Berlin

Learning the Non-Coding Genome

Metadaten

Das Dokument erscheint in:

Dateien zu dieser Ressource

Metadaten exportieren