dc.contributor.author
Love, Michael I.
dc.date.accessioned
2018-06-07T18:34:19Z
dc.date.available
2013-10-15T10:38:02.641Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/5192
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-9391
dc.description.abstract
High-throughput sequencing (HTS) refers to the simultaneous sequencing of
millions of fragments of DNA, which can be either assembled to reconstitute a
genome, or aligned to an existing reference genome. The protocol can be
extended to assay a wide variety of biological states of the cell, including
DNA copy number, mRNA abundance and various properties of chromatin. HTS
experiments allow for these biological states to be quantified as read counts
at genome-wide scale with a single experiment. Though the experiments are
expensive and often datasets are produced with limited sample size,
information can be shared across thousands of genomic ranges in order to
obtain robust models which control for technical biases. In this thesis, I
present three statistical models for analyzing HTS read count data, aimed at
answering concise biological questions. First, a hidden Markov model is
developed for detecting copy number variants (CNVs) in individual samples
while controlling for technical artifacts, such as variation in read counts
due to local GC-content. Applied to a study of 248 male patients with X-linked
intellectual disability, the model predicts 16 large CNVs, of which 10
candidate disease-causing CNVs were tested and all experimentally validated.
The proposed software is then compared with state-of-the-art segmentation
algorithms on normalized data, showing higher sensitivity while controlling
the total rate of predicted CNVs. Second, improvements for parameter
estimation are made for a statistical model of differential gene expression
from RNA-Seq data. The improvements involve the use of empirical Bayes priors
-- priors estimated using the observations from all genes -- in order to
moderate otherwise noisy estimates of dispersion and fold changes for
individual genes. The improved model shows increased sensitivity and more
robust estimation of fold change in comparison with other differential
expression software packages for RNA-Seq. Finally, a hierarchical Bayes model
is used to associate transcription factor binding with chromatin and sequence
features in regions of accessible chromatin. The hierarchical model
incorporates three levels of parameters: one for individual experiments, one
for experiments of the same cell type and one across all cell types. The model
parameters are used to generate hypotheses regarding the DNA-binding behavior
of a transcription factor, the glucocorticoid receptor. In summary, this
thesis describes a set of statistical methods for HTS read count data which
can be used across various biological domains. The methods form a framework
for robust estimation of variables and hypothesis testing.
de
dc.description.abstract
Mit Hochdurchsatz-Sequenzierverfahren (HTS) bezeichnet man das gleichzeitige
Sequenzieren von Millionen von DNA-Fragmenten, welche entweder zur
Genomrekonstrution genutzt oder auf ein bestehendes Referenzgenom aligniert
werden können. Das Protokoll kann erweitert werden, um verschiedene
biologische Zustände der Zelle, wie z.B. die Anzahl an DNA-Kopien, mRNA-
Abundanzen oder verschiedene Chromatin-Eigenschaften, zu messen. Diese
Hochdurchsatzverfahren ermöglichen biologische Zustände genomweit mit einem
einzigen Experiment zu quantifizieren. Obwohl diese Experimente oft nur eine
begrenzte Stichprobengrösse haben, liefern sie dennoch Informationen zu
tausenden Genomregionen und ermöglichen das Erstellen robuster statistische
Modelle, um technische Fehler zu reduzieren. In dieser Arbeit entwickle ich
drei statistische Modelle basierend auf HTS-Daten um konkrete biologische
Fragen zu beantworten. Im ersten Teil wird ein hidden Markov-Modell entworfen,
um Kopienzahlvariationen (CNVs) in einzelnen Patienten zu detektieren. Das
Modell berücksichtigt hierbei technische Artefakte wie z.B. die variable HTS-
Effizienz abhängig vom lokalen GC-Gehalt. Angewendet auf eine Studie mit 248
männlichen Patienten, sagt das Modell 16 grosse CNVs voraus, wovon 10 CNVs
getestet und experimentell validiert wurden. Im Vergleich mit anderen
Segmentierungsalgorithmen zeigt die vorgestellte Software auf simulierten CNVs
eine höhere Sensitivität bei gleicher Anzahl prognostizierter CNVs. Im zweiten
Teil wird die Parameterabschätzung in einem statistisches Modell zur
Identifizierung von differentieller Genexpression in RNA-Seq-Daten verbessert.
Dies umfasst die Benutzung von empirischen Bayes'schen a-priori-
Wahrscheinlichkeiten, welche über alle Gene geschätzt werden. Hierdurch werden
unsichere Schätzungen der Varianz-Parameter und der Expressionsänderung
einzelner Gene korrigiert. Das verbesserte Modell ist sensitiver und
zusätzlich robuster in der Schätzung der Expressionsänderung im Vergleich zu
alternativen Softwarepaketen. Im letzten Teil wird ein hierarchisches
Bayes'sches Modell verwendet um in zugänglichen Chromatinregionen den
Zusammenhang zwischen der Bindung eines Transkriptionsfaktors und Chromatin-
und Sequenz-Eigenschaften zu beschreiben. Dieses Modell umfasst drei Ebenen:
den Vergleich einzelner Experimente, Experimente des gleichen Zelltyps oder
Experimente über alle Zelltypen. Das Modell dient der Hypothesengenerierung
für das DNA-Bindungsverhalten eines Transkriptionskriptionsfaktors. Dies wird
am Beispiel des Glucocorticoid-Rezeptors veranschaulicht. Zusammenfassend
beschreibt diese Arbeit eine Sammlung statistischer Methoden für die
Modellierung von HTS-Daten, die in verschiedenen biologischen Bereichen
verwendet werden kann. Diese Methoden bilden einen allgemeinen Rahmen zur
robusten Schätzungen von Variablen und zum Testen von Hypothesen.
de
dc.format.extent
VI, 107 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
high-throughput sequencing
dc.subject
statistical modeling
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Statistical analysis of high-throughput sequencing count data
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
PD. Dr. Peter N. Robinson
dc.date.accepted
2013-09-24
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000095251-4
dc.title.translated
Statistische Analyse von Hochdurchsatz-Sequenzierverfahren-Daten
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000095251
refubium.mycore.derivateId
FUDISS_derivate_000000014145
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access