dc.contributor.author
Helmuth, Johannes
dc.date.accessioned
2018-06-07T16:35:18Z
dc.date.available
2017-06-28T12:49:16.319Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/2741
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-6942
dc.description
I Background 1 The Basics of Molecular Biology 1.1 The Genome and the Readout
of Genetic Information 1.1.1 The DNA 1.1.2 The Chromatin 1.1.3 The Readout of
Genetic Information 1.2 Measuring the Cell by Next Generation Sequencing 1.2.1
Gene Expression 1.2.2 Chromatin Modifications 2 Mathematical Concepts 2.1
Statistical Prerequisites 2.1.1 Statistical Inference 2.1.2 Multiple Testing
Correction and the T Method 2.1.3 The Binomial Distribution 2.1.4 Sampling
from Binomial Distributions 2.1.5 Mixture Models 2.2 Model Parameter
Estimation 2.2.1 Sufficient Statistics 2.2.2 Maximum Likelihood Estimation
2.2.3 The Expectation-Maximization Algorithm II Normalization of NGS Read
Count Data 3 The normR Framework 3.1 Motivation 3.2 The normR Approach 3.2.1
Sequencing is a (Multinomial) Sampling Trial 3.2.2 Deliberations on the
Signal-to-Noise Ratio (S/N) 3.2.3 The normR Method 3.2.4 Why Not Use a
Negative Binomial or Multinomial Distribution? 3.3 Outlook 4 ChIP-seq
Enrichment Calling with enrichR 4.1 Introduction 4.2 Methods 4.2.1 Data Sets
4.2.2 The normR Methods: enrichR 4.2.3 Confidence-Weighted Quantification of
DNA-Methylation 4.2.4 Comparison of Enrichment Callers 4.2.5 Correlating
enrichR -estimated Enrichment to NCIS and HMD% 4.2.6 Chromatin Segmentation
Based on enrichR Enrichment Calls 4.3 Results – Enrichment Calling in High and
Low S/N 4.3.1 Systematic Comparison of Available Enrichment Callers 4.3.2
enrichR Normalization Corresponds to Published In Silico as well as In Vitro
Normalization Methods 4.3.3 Improved Chromatin Segmentation with an enrichR-
chromHMM Hybrid Approach 4.4 Discussion 5 Regime Enrichment Calling with
regimeR 5.1 Introduction 5.2 Methods 5.2.1 Data Sets 5.2.2 The normR Methods:
regimeR 5.2.3 Validation of regimeR Calls via Sequence Features 5.3 Results -
Distinct Heterochromatic Enrichment Regimes 5.3.1 H3K27me3 Peaks Coincide with
CpG Islands Bound by EZH2 5.3.2 H3K9me3 Peaks are Found within Repeats Bound
by ZNF274 5.3.3 Heterochromatic Peaks Resemble Nucleation Sites for
Heterochromatin Embedded within Regions of Broad Enrichment 5.3.4 H3K27me3 and
H3K9me3 do Overlap by a Minority within and between Tissues 5.4 Discussion 6
ChIP-seq Difference Calling with diffR 6.1 Introduction 6.2 Methods 6.2.1 Data
Sets 6.2.2 The normR Methods: diffR 6.2.3 Gene Ontology Analysis 6.2.4
Comparison of ChIP-seq Difference Callers 6.3 Results 6.3.1 Difference Calling
in HepG2 Cells and Primary Human Hepatocytes 6.3.2 Comparison of ChIP-seq
Difference Callers 6.4 Discussion III Conclusion Bibliography A Supplementary
Figures B Supplementary Tables C Abstract D Zusammenfassung E
Selbstständigkeitserklärung
dc.description.abstract
Molecular Biology pertains to the molecular basis of the regulation of
biomolecular processes in the cell, e.g. gene expression or the genome-wide
localization of DNA-associated proteins. These molecular quantities are
routinely measured by Next Generation Sequencing (NGS)-based tech- niques due
to their genome-wide scalability and cost-efficiency. In order to discern
background- regions from genomic loci that harbor a biological relevant
signal, i.e. difference calling, the NGS measurements need to be corrected for
technical biases with the help of a control, i.e. nor- malization. However,
the normalization itself requires the knowledge of background regions and,
consequently, difference calling and normalization are inseparable. Here, this
problem is solved by the data-driven “normR” framework which models the inter-
dependency of NGS mea- surements in background- and signal-regions as a
multinomial sampling trial with a binomial mixture model. The robust normR
normalization accounts for the effect of signal on the overall measurement
statistic by modeling treatment and control simultaneously. In this thesis, I
used normR in three studies concerning the inference of DNA-protein binding
from ChIP-seq data. Firstly, the two-component “enrichR” model is shown to
achieve a more sensitive enrichment calling (AUC≥0.93) than six competitor
methods (AUC≤0.86) in low, e.g. H3K36me3, and high, e.g. H3K4me3, signal-to-
noise ratio (S/N) ChIP-seq data. enrichR’s enrichment calls augment the
resolution and comprehensiveness of chromatin segmentations by chromHMM and
its normal- ization improves on present in silico and in vitro ChIP-seq
normalization methods. Secondly, the three-component “regimeR” model dissects
enrichment into two unprecedented regimes of dif- ferent signal levels. A
regimeR-based analysis identified two distinct facultative and constitutive
heterochromatic enrichment regimes in H3K27me3 and H3K9me3 ChIP-seq data,
respectively. The identified peak regions (high enrichment) resemble
nucleation sites for heterochromatin embedded in regions of broad (low)
enrichment. Lastly, the three-component “diffR” model calls conditional
differences in ChIP-seq enrichment between two conditions. The diffR calls in
low (H3K27me3) and high (H3K4me3) S/N ChIP-seq data are confirmed by a
systematic compari- son to four difference callers. Overall, normR represents
a robust and versatile framework for the comprehensive analysis of ChIP-seq
data, yet, it can be readily applied to other NGS-based experiments like ATAC-
seq, STARR-seq or RNA-seq.
de
dc.description.abstract
Die Molekulare Biologie studiert die molekulare Basis der Regulierung von
biomolekularen Pro- zessen wie der Genexpression und der genomweiten
Lokalisation von DNS-bindenden Protei- nen. Die molekularen Größen werden
mittels Next Generation Sequencing(NGS)-basierten Me- thoden gemessen, da
diese genomweit skalierbar und kosteneffizient sind. Um Hintergrundre- gionen
von genomischen Regionen mit einem biologisch relevanten Signal zu
unterscheiden (Differenzenbestimmung) müssen technische Verzerrungen in den
NGS Messungen mit Hilfe einer Kontrolle normalisiert werden. Jedoch benötigt
eine korrekte Normalisierung die Identi- tät der Hintergrundregionen und,
somit, sind Differenzenbestimmung und Normalisierung un- trennbar miteinander
verbunden. Dieses Problem wird mit dem vorgestellten datenbasierten “normR”
Modell gelöst, welches die Wechselbeziehung zwischen Zahlenwerten in
Hintergrund- und Signalregionen als eine binomiale Mischverteilung modelliert.
Die robuste Normalisierung von normR berücksichtigt durch gleichzeitige
Modellierung von Experiment und Kontrolle den Einfluss des Signals auf die
Messstatistik. In dieser Arbeit wurde normR in drei Analysen von ChIP-seq
Daten verwendet um DNS-Bindestellen von Proteinen zu identifizieren. 1. Das
“en- richR” Modell erreicht mit einer Mischverteilung aus zwei Komponenten
eine Differenzenbe- stimmung, die sensitiver ist (AUC≥0.93) als bei sechs
anderen Programmen (AUC≤0.86). Die identifizierten differentiellen Regionen
erweitern die Auflösung und den Umfang von Chroma- tinsegmentierungen durch
das chromHMM Programm. Die Normalisierung von enrichR ist bes- ser als
bekannte in vitro und in silico Normalisierungsansätze. 2. Das “regimeR”
Modell mit drei Komponenten teilt die vom ChIP angereicherten Regionen in zwei
Klassen mit unterschiedli- cher Signalintensität. Eine Analyse mit regimeR
identifiziert zwei Klassen von Anreicherung in fakultativem und konstitutivem
Heterochromatin in H3K27me3 and H3K9me3 ChIP-seq Daten- sätzen. Die Regionen
mit hoher Signalintensität sind flankiert von breiten Regionen mit nied- rigem
Signal und könnten Keimstellen des Heterochromatins darstellen. 3. Das “diffR”
Modell identifiziert Unterschiede zwischen ChIP-seq Messungen in zwei
zellulären Bedingungen. Die Ergebnisse von diffR wurden mittels eines
systematischen Vergleichs zu vier anderen ChIP-seq
Differenzbestimmungsprogrammen validiert. normR ist ein robustes und
vielseitiges Programm zur umfassenden Analyse von ChIP-seq Daten und vermag in
Zukunft eine sensitive Analyse von anderen NGS Datensätzen wie ATAC-seq,
STARR-seq und RNA-seq zu ermöglichen.
de
dc.format.extent
xii, 145 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Normalization of read count data
dc.subject
Enrichment Calling
dc.subject
Difference Calling
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
Robust Normalization of Next Generation Sequencing Data
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Uwe Ohler
dc.date.accepted
2017-05-15
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000104985-5
dc.title.translated
Robuste Normalisierung von Next-Generation-Sequencing Datensätzen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000104985
refubium.mycore.derivateId
FUDISS_derivate_000000021733
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access