Patterns and algorithms in high-throughput sequencing count data

Mammana, Alessandro

Patterns and algorithms in high-throughput sequencing count data

Metadaten

dc.contributor.author

Mammana, Alessandro

dc.date.accessioned

2018-06-08T00:53:52Z

dc.date.available

2016-07-20T09:06:00.877Z

dc.date.issued

2016

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/12634

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-16832

dc.description.abstract

Proteins interacting with the genome, such as histones and transcription factors, play a major role in the regulation of gene expression. These interactions can be detected with ChIP-seq, which provides sequences of non- negative integers, called count signals, quantifying the presence of a given protein at each genomic locus. However, the computational analysis of count signals is challenging, as the biological patterns are complex and the datasets are large. In this thesis, we propose accurate and efficient algorithms for 3 different pattern detection problems in count signals. First, we present an algorithm that infers the genomic locations of positioned nucleosomes from histone ChIP-seq experiments. This method can integrate measurements for different histone marks and uses a wavelet to detect the count pattern corresponding to positioned nucleosomes. When compared with previous approaches using biological and simulated data, our method shows a higher precision and reduced runtimes. Next, we introduce an algorithm that annotates genomic regions according to the regulatory processes acting on them. The labels of this annotation, called chromatin states, are learned automatically from the measurements of multiple histone marks. Unlike previous approaches, our method characterizes chromatin states with a rigorous probabilistic model of the count signals. The resulting annotation is shown to be more strongly associated to DNA accessibility and transcription, as well as more robust and comprehensive compared to previous approaches. Lastly, we present an algorithm for finding transcription factor binding sites from ChIP- exo data (a method similar to ChIP-seq). Our algorithm learns the genomic sequences that attract the transcription factor (the motif) and the count pattern observable at binding sites (the footprint) at once. We show that our method finds the correct motif and detects interpretable footprints in 4 different datasets. Moreover, our approach can distinguish different categories of binding sites in the same experiment. Overall, the proposed algorithms represent an advancement in the automatic detection of biological patterns, as they are more accurate and in some cases considerably faster than existing approaches. Finally, they are based on a mathematical framework that is general and likely to be important for future research.

dc.description.abstract

Proteine, die mit dem Genom interagieren, spielen eine wichtige Rolle in der Regulation der Genexpression. Diese Interaktionen können mit Hilfe sogenannter ChIP-seq Experimente detektiert werden. Die resultierenden Messungen lassen sich durch Sequenzen von nicht-negativen ganzen Zahlen darstellen, die Zählsignale genannt werden und die die Proteinmenge in jedem Lokus quantifizieren. Die Analyse dieser Signale wird jedoch im Allgemeinen durch die Komplexität der biologischen Muster und der Größe der Datensätze erschwert. In der vorliegenden Arbeit werden Algorithmen für drei Mustererkennungsprobleme in Zählsignalen vorgeschlagen. Als erstes wird ein Algorithmus präsentiert, der die Koordinaten gut positionierter Nukleosomen aus ChIP-seq Daten von Histonmodifikationen vorhersagt. Die vorgestellte Methode kann Messungen für verschiedene Histonmodifikationen integrieren und benutzt ein Wavelet um das Muster, das gut positionierten Nukleosomen entspricht, in dem Zählsignal zu erkennen. Ein Vergleich der vorgestellten Methode mit früheren Ansätzen auf biologischen sowie simulierten Daten zeigt, dass die neue Methode präziser und schneller ist. Der zweite vorgestellte Algorithmus annotiert Genomregionen nach den auf sie wirkenden genregulatorischen Prozessen. Die Kategorien dieser Annotation, die Chromatinzustände genannt werden, werden automatisch aus den Messungen von mehreren Histonmodifikationen gelernt. Die vorgestellte Methode bestimmt Chromatinzustände mit Hilfe eines exakten Modells der Zählsignale. Die so gelernte Annotation ist besser mit Daten zur Genomzugänglichkeit und Transkription assoziiert, so wie robuster und umfassender im Vergleich zu früheren Ansätzen. Als letztes wird ein Algorithmus beschrieben, der Bindungsstelle von Transktiptionsfaktoren aus einem ChIP-exo Experiment (eine ähnliche Methode wie ChIP-seq) vorhersagt. Der vorgestellte Algorithmus lernt gleichzeitig, welche Genomsequenzen die Transkriptionsfaktoren binden (das Motif) und welches Muster das Zählsignal an den Bindungsstellen zeigt (das Footprint). Auf vier unterschiedlichen Datensätzen wird gezeigt, dass die vorgestellte Methode immer das korrekte Motif und interpretierbare Footprints findet. Außerdem kann der vorgestellte Ansatz verschiedene Gruppen von Bindungsstellen in einem ChIP-exo Experiment erkennen. Zusammenfassend, präsentiert die vorliegende Arbeit Methoden, die die bestehenden verbessern und die als Startpunkt fuer künftige Ansätze dienen können.

dc.format.extent

viii, 117 Seiten

dc.language

eng

dc.rights.uri

http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen

dc.subject

Patterns

dc.subject

Algorithms

dc.subject

Chromatin

dc.subject

Chip-seq

dc.subject

HMM

dc.subject.ddc

000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme

dc.subject.ddc

500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik

dc.subject.ddc

500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie

dc.title

Patterns and algorithms in high-throughput sequencing count data

dc.type

Dissertation

dcterms.format

Text

dc.contributor.contact

ale.fener@gmail.com

dc.contributor.gender

dc.contributor.firstReferee

Prof. Dr. Martin Vingron

dc.contributor.furtherReferee

Prof. Dr. Dr. Thomas Lengauer

dc.date.accepted

2016-02-19

dc.identifier.urn

urn:nbn:de:kobv:188-fudissthesis000000102558-4

dc.title.translated

Muster und Algorithmen für Hochdrucksequenzierungzählwerte

refubium.affiliation

Mathematik und Informatik

refubium.mycore.fudocsId

FUDISS_thesis_000000102558

refubium.mycore.derivateId

FUDISS_derivate_000000019623

dcterms.accessRights.dnb

free

dcterms.accessRights.openaire

open access

Zur Kurzanzeige

Das Dokument erscheint in:

Dissertationen FU

Dateien zu dieser Ressource

thesis_online_version.pdf

Größe: 6.417MB

Format: PDF

Prüfsumme (MD5): 0c8e1dfa0cd771ffa2c70faba59a1514

Öffnen

Patterns and algorithms in high-throughput sequencing count data

Refubium - Repositorium der Freien Universität Berlin

Patterns and algorithms in high-throughput sequencing count data

Metadaten

Das Dokument erscheint in:

Dateien zu dieser Ressource

Metadaten exportieren