Statistical analysis of high-throughput sequencing count data

Love, Michael I.

Statistical analysis of high-throughput sequencing count data

Title:

Statistical analysis of high-throughput sequencing count data

Translated Title(s):

Statistische Analyse von Hochdurchsatz-Sequenzierverfahren-Daten

Author(s):

Love, Michael I.

Year of publication:

2013

Available Date:

2013-10-15T10:38:02.641Z

Abstract:

High-throughput sequencing (HTS) refers to the simultaneous sequencing of millions of fragments of DNA, which can be either assembled to reconstitute a genome, or aligned to an existing reference genome. The protocol can be extended to assay a wide variety of biological states of the cell, including DNA copy number, mRNA abundance and various properties of chromatin. HTS experiments allow for these biological states to be quantified as read counts at genome-wide scale with a single experiment. Though the experiments are expensive and often datasets are produced with limited sample size, information can be shared across thousands of genomic ranges in order to obtain robust models which control for technical biases. In this thesis, I present three statistical models for analyzing HTS read count data, aimed at answering concise biological questions. First, a hidden Markov model is developed for detecting copy number variants (CNVs) in individual samples while controlling for technical artifacts, such as variation in read counts due to local GC-content. Applied to a study of 248 male patients with X-linked intellectual disability, the model predicts 16 large CNVs, of which 10 candidate disease-causing CNVs were tested and all experimentally validated. The proposed software is then compared with state-of-the-art segmentation algorithms on normalized data, showing higher sensitivity while controlling the total rate of predicted CNVs. Second, improvements for parameter estimation are made for a statistical model of differential gene expression from RNA-Seq data. The improvements involve the use of empirical Bayes priors -- priors estimated using the observations from all genes -- in order to moderate otherwise noisy estimates of dispersion and fold changes for individual genes. The improved model shows increased sensitivity and more robust estimation of fold change in comparison with other differential expression software packages for RNA-Seq. Finally, a hierarchical Bayes model is used to associate transcription factor binding with chromatin and sequence features in regions of accessible chromatin. The hierarchical model incorporates three levels of parameters: one for individual experiments, one for experiments of the same cell type and one across all cell types. The model parameters are used to generate hypotheses regarding the DNA-binding behavior of a transcription factor, the glucocorticoid receptor. In summary, this thesis describes a set of statistical methods for HTS read count data which can be used across various biological domains. The methods form a framework for robust estimation of variables and hypothesis testing.

Mit Hochdurchsatz-Sequenzierverfahren (HTS) bezeichnet man das gleichzeitige Sequenzieren von Millionen von DNA-Fragmenten, welche entweder zur Genomrekonstrution genutzt oder auf ein bestehendes Referenzgenom aligniert werden können. Das Protokoll kann erweitert werden, um verschiedene biologische Zustände der Zelle, wie z.B. die Anzahl an DNA-Kopien, mRNA- Abundanzen oder verschiedene Chromatin-Eigenschaften, zu messen. Diese Hochdurchsatzverfahren ermöglichen biologische Zustände genomweit mit einem einzigen Experiment zu quantifizieren. Obwohl diese Experimente oft nur eine begrenzte Stichprobengrösse haben, liefern sie dennoch Informationen zu tausenden Genomregionen und ermöglichen das Erstellen robuster statistische Modelle, um technische Fehler zu reduzieren. In dieser Arbeit entwickle ich drei statistische Modelle basierend auf HTS-Daten um konkrete biologische Fragen zu beantworten. Im ersten Teil wird ein hidden Markov-Modell entworfen, um Kopienzahlvariationen (CNVs) in einzelnen Patienten zu detektieren. Das Modell berücksichtigt hierbei technische Artefakte wie z.B. die variable HTS- Effizienz abhängig vom lokalen GC-Gehalt. Angewendet auf eine Studie mit 248 männlichen Patienten, sagt das Modell 16 grosse CNVs voraus, wovon 10 CNVs getestet und experimentell validiert wurden. Im Vergleich mit anderen Segmentierungsalgorithmen zeigt die vorgestellte Software auf simulierten CNVs eine höhere Sensitivität bei gleicher Anzahl prognostizierter CNVs. Im zweiten Teil wird die Parameterabschätzung in einem statistisches Modell zur Identifizierung von differentieller Genexpression in RNA-Seq-Daten verbessert. Dies umfasst die Benutzung von empirischen Bayes'schen a-priori- Wahrscheinlichkeiten, welche über alle Gene geschätzt werden. Hierdurch werden unsichere Schätzungen der Varianz-Parameter und der Expressionsänderung einzelner Gene korrigiert. Das verbesserte Modell ist sensitiver und zusätzlich robuster in der Schätzung der Expressionsänderung im Vergleich zu alternativen Softwarepaketen. Im letzten Teil wird ein hierarchisches Bayes'sches Modell verwendet um in zugänglichen Chromatinregionen den Zusammenhang zwischen der Bindung eines Transkriptionsfaktors und Chromatin- und Sequenz-Eigenschaften zu beschreiben. Dieses Modell umfasst drei Ebenen: den Vergleich einzelner Experimente, Experimente des gleichen Zelltyps oder Experimente über alle Zelltypen. Das Modell dient der Hypothesengenerierung für das DNA-Bindungsverhalten eines Transkriptionskriptionsfaktors. Dies wird am Beispiel des Glucocorticoid-Rezeptors veranschaulicht. Zusammenfassend beschreibt diese Arbeit eine Sammlung statistischer Methoden für die Modellierung von HTS-Daten, die in verschiedenen biologischen Bereichen verwendet werden kann. Diese Methoden bilden einen allgemeinen Rahmen zur robusten Schätzungen von Variablen und zum Testen von Hypothesen.

Identifier:

https://refubium.fu-berlin.de/handle/fub188/5192
http://dx.doi.org/10.17169/refubium-9391
urn:nbn:de:kobv:188-fudissthesis000000095251-4

Language:

English

Keywords:

high-throughput sequencing
read counts
statistical modeling
CNV
RNA-Seq
ChIP-Seq

DDC-Classification:

570 Biowissenschaften; Biologie

Publication Type:

Dissertation

Department/institution:

Mathematik und Informatik