Statistical analysis of high-throughput sequencing count data

Love, Michael I.

Statistical analysis of high-throughput sequencing count data

Metadata

dc.contributor.author

Love, Michael I.

dc.date.accessioned

2018-06-07T18:34:19Z

dc.date.available

2013-10-15T10:38:02.641Z

dc.date.issued

2013

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/5192

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-9391

dc.description.abstract

High-throughput sequencing (HTS) refers to the simultaneous sequencing of millions of fragments of DNA, which can be either assembled to reconstitute a genome, or aligned to an existing reference genome. The protocol can be extended to assay a wide variety of biological states of the cell, including DNA copy number, mRNA abundance and various properties of chromatin. HTS experiments allow for these biological states to be quantified as read counts at genome-wide scale with a single experiment. Though the experiments are expensive and often datasets are produced with limited sample size, information can be shared across thousands of genomic ranges in order to obtain robust models which control for technical biases. In this thesis, I present three statistical models for analyzing HTS read count data, aimed at answering concise biological questions. First, a hidden Markov model is developed for detecting copy number variants (CNVs) in individual samples while controlling for technical artifacts, such as variation in read counts due to local GC-content. Applied to a study of 248 male patients with X-linked intellectual disability, the model predicts 16 large CNVs, of which 10 candidate disease-causing CNVs were tested and all experimentally validated. The proposed software is then compared with state-of-the-art segmentation algorithms on normalized data, showing higher sensitivity while controlling the total rate of predicted CNVs. Second, improvements for parameter estimation are made for a statistical model of differential gene expression from RNA-Seq data. The improvements involve the use of empirical Bayes priors -- priors estimated using the observations from all genes -- in order to moderate otherwise noisy estimates of dispersion and fold changes for individual genes. The improved model shows increased sensitivity and more robust estimation of fold change in comparison with other differential expression software packages for RNA-Seq. Finally, a hierarchical Bayes model is used to associate transcription factor binding with chromatin and sequence features in regions of accessible chromatin. The hierarchical model incorporates three levels of parameters: one for individual experiments, one for experiments of the same cell type and one across all cell types. The model parameters are used to generate hypotheses regarding the DNA-binding behavior of a transcription factor, the glucocorticoid receptor. In summary, this thesis describes a set of statistical methods for HTS read count data which can be used across various biological domains. The methods form a framework for robust estimation of variables and hypothesis testing.

dc.description.abstract

Mit Hochdurchsatz-Sequenzierverfahren (HTS) bezeichnet man das gleichzeitige Sequenzieren von Millionen von DNA-Fragmenten, welche entweder zur Genomrekonstrution genutzt oder auf ein bestehendes Referenzgenom aligniert werden können. Das Protokoll kann erweitert werden, um verschiedene biologische Zustände der Zelle, wie z.B. die Anzahl an DNA-Kopien, mRNA- Abundanzen oder verschiedene Chromatin-Eigenschaften, zu messen. Diese Hochdurchsatzverfahren ermöglichen biologische Zustände genomweit mit einem einzigen Experiment zu quantifizieren. Obwohl diese Experimente oft nur eine begrenzte Stichprobengrösse haben, liefern sie dennoch Informationen zu tausenden Genomregionen und ermöglichen das Erstellen robuster statistische Modelle, um technische Fehler zu reduzieren. In dieser Arbeit entwickle ich drei statistische Modelle basierend auf HTS-Daten um konkrete biologische Fragen zu beantworten. Im ersten Teil wird ein hidden Markov-Modell entworfen, um Kopienzahlvariationen (CNVs) in einzelnen Patienten zu detektieren. Das Modell berücksichtigt hierbei technische Artefakte wie z.B. die variable HTS- Effizienz abhängig vom lokalen GC-Gehalt. Angewendet auf eine Studie mit 248 männlichen Patienten, sagt das Modell 16 grosse CNVs voraus, wovon 10 CNVs getestet und experimentell validiert wurden. Im Vergleich mit anderen Segmentierungsalgorithmen zeigt die vorgestellte Software auf simulierten CNVs eine höhere Sensitivität bei gleicher Anzahl prognostizierter CNVs. Im zweiten Teil wird die Parameterabschätzung in einem statistisches Modell zur Identifizierung von differentieller Genexpression in RNA-Seq-Daten verbessert. Dies umfasst die Benutzung von empirischen Bayes'schen a-priori- Wahrscheinlichkeiten, welche über alle Gene geschätzt werden. Hierdurch werden unsichere Schätzungen der Varianz-Parameter und der Expressionsänderung einzelner Gene korrigiert. Das verbesserte Modell ist sensitiver und zusätzlich robuster in der Schätzung der Expressionsänderung im Vergleich zu alternativen Softwarepaketen. Im letzten Teil wird ein hierarchisches Bayes'sches Modell verwendet um in zugänglichen Chromatinregionen den Zusammenhang zwischen der Bindung eines Transkriptionsfaktors und Chromatin- und Sequenz-Eigenschaften zu beschreiben. Dieses Modell umfasst drei Ebenen: den Vergleich einzelner Experimente, Experimente des gleichen Zelltyps oder Experimente über alle Zelltypen. Das Modell dient der Hypothesengenerierung für das DNA-Bindungsverhalten eines Transkriptionskriptionsfaktors. Dies wird am Beispiel des Glucocorticoid-Rezeptors veranschaulicht. Zusammenfassend beschreibt diese Arbeit eine Sammlung statistischer Methoden für die Modellierung von HTS-Daten, die in verschiedenen biologischen Bereichen verwendet werden kann. Diese Methoden bilden einen allgemeinen Rahmen zur robusten Schätzungen von Variablen und zum Testen von Hypothesen.

dc.format.extent

VI, 107 S.

dc.language

eng

dc.rights.uri

http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen

dc.subject

high-throughput sequencing

dc.subject

read counts

dc.subject

statistical modeling

dc.subject

CNV

dc.subject

RNA-Seq

dc.subject

ChIP-Seq

dc.subject.ddc

500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie

dc.title

Statistical analysis of high-throughput sequencing count data

dc.type

Dissertation

dcterms.format

Text

dc.contributor.gender

dc.contributor.firstReferee

Prof. Dr. Martin Vingron

dc.contributor.furtherReferee

PD. Dr. Peter N. Robinson

dc.date.accepted

2013-09-24

dc.identifier.urn

urn:nbn:de:kobv:188-fudissthesis000000095251-4

dc.title.translated

Statistische Analyse von Hochdurchsatz-Sequenzierverfahren-Daten

refubium.affiliation

Mathematik und Informatik

refubium.mycore.fudocsId

FUDISS_thesis_000000095251

refubium.mycore.derivateId

FUDISS_derivate_000000014145

dcterms.accessRights.dnb

free

dcterms.accessRights.openaire

open access

Show Simple Item Record

This Item appears in the following Collection(s)

Dissertationen FU

Files in This Item

thesis_online_submit.pdf

Size: 1.529MB

Format: PDF

Checksum (MD5): e4b6dc0d4de469888ab1fecfe8e60a8b

View/Open

Statistical analysis of high-throughput sequencing count data

Refubium - Freie Universität Berlin Repository

Statistical analysis of high-throughput sequencing count data

Metadata

This Item appears in the following Collection(s)

Files in This Item

Export metadata