dc.contributor.author
Schulz, Marcel H.
dc.date.accessioned
2018-06-08T00:54:08Z
dc.date.available
2011-02-22T13:47:10.519Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12643
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-16841
dc.description.abstract
Research in molecular biology was revolutionized by the invention of semi-
automated Sanger sequencing for DNA in the early 1990’s. It was the foundation
for the se- quencing of several genomes including the human genome. In the
last few years a second revolution in the field of DNA sequencing has occurred
that has changed the field. Next-generation sequencing (NGS) approaches
suddenly enable the sequencing of millions of DNA fragments leading to short
sequencing reads in less than a day. These NGS technologies are still in its
infancy and their further development will herald a new era where DNA
sequencing is inexpensive and easily manageable. This development has shifted
the largest proportion of the workload onto the workbench of the computational
biologist that has to cope with gigabases of sequence data, creating a
bottleneck for scientific discovery. This thesis deals with the challenges
related to the application of Next-generation sequencing (NGS) technologies to
the sequencing of expressed mRNAs (RNA-Seq) and the detection of alternative
exon events (AEEs), summarizing alternative splicing, alternative promoter,
and alternative polyadenylation events. There are three main contributions.
First, methods are introduced that enable the detection of AEEs within or
between conditions, e.g. disease and normal, based on given gene annotation
and mapped RNA-Seq reads. All methods are based on a Poisson model that
describes the random placement of reads along a transcript. The methods are
applied to a dataset from a human embryonic kidney (HEK) and a B cell line.
Several thousand AEEs were predicted in these cell lines. The robustness and
correctness of the predictions was assessed by simulations, bootstrapping, and
RT-PCR validation experiments. In addition, a comparison of splicing
prediction by RNA-Seq with prediction from exon arrays shows higher
sensitivity and accuracy for RNA-Seq based predictions. Second, a new method
for inferring isoform expression levels from RNA-Seq data is proposed, given
annotated isoform structures and mapped read information. The method is based
on the Expectation-Maximization framework. The theoretical power of the
approach is demonstrated with simulations. Application to HEK and B cell RNA-
Seq data and comparison to isoform expression quantification with quantitative
RT-PCR experiments show the accuracy of the porposed method. Finally, the first
method that allows the de novo assembly of an organism’s transcrip- tome from
short read RNA-Seq data is presented, an important problem that enables
functional analysis and gene discovery when the genome of an organism was not
se- quenced yet. A transition from the traditional Overlap-Layout-Consensus
paradigm to the Eulerian path approach to transcriptome assembly is made,
similar to the de- velopment for de novo genome assembly. The similarities
between de Bruijn graphs and splicing graphs are explored and a theory for de
novo prediction of AEEs is developed. Further, algorithms for the assembly of
full length sequences considering alternative gene isoforms are designed. An
application to real data demonstrates the improvement compared to de novo
genome assemblers that have been utilized so far for RNA-Seq datasets. For a
mouse RNA-Seq dataset with approximately 67 Mio. reads a total output of 63
megabases of transcript sequences is assembled of which approximately 6,900
are full-length mRNAs, underlining the success of the approach with few lanes
of sequencing.
de
dc.description.abstract
Die molekulare biologische Forschung wurde durch die Erfindung der halbautoma-
tisierten Sanger Sequenzierung für DNS in den frühen 1990er Jahren
revolutioniert. Sie legte den Grundstein für die Sequenzierung von mehreren
Genomen einschließlich des menschlichen Genoms. In den letzten Jahren hat es
eine zweite Revolution im Bereich der DNS Sequenzierung gegeben. Die so
genannten Next-Generation Se- quencing (NGS) Verfahren erlauben die
Sequenzierung von Millionen von DNS Frag- menten, in Form von kurzen "Reads",
in weniger als einem Tag. Diese NGS Tech- nologien sind noch nicht voll
ausgereift und ihre weitere Entwicklung wird eine neue Ära in der DNS
Sequenzierung einläuten, in der DNS Sequenzierung preiswert und einfach zu
handhaben ist. Diese Entwicklung bedeutet einen entscheidenden Anstieg des
Arbeitsaufwand von Bioinformatikern, die Gigabasen von Sequenzdaten bewälti-
gen müssen, was derzeitig den Flaschenhals für wissenschaftliche Analysen mit
NGS Daten darstellt. Diese Dissertation beschäftigt sich mit den
Herausforderungen, die sich auf Applika- tionen von NGS Technologien zum
Sequenzieren von exprimierten mRNAs (RNA- Seq) beziehen. Im besonderen wird
die Ermittlung von alternativen Exon Ereignissen (AEEs) betrachtet, was
zusammenfassend steht für alternatives Spleißen, alterna- tive Promotoren und
alternative Polyadenylierungsereignisse. Im folgenden die drei wichtigsten
Beiträge. Zuerst werden Methoden eingeführt, die die Vorhersage von AEEs in
einer oder zwis- chen zwei Konditionen, zum Beispiel krank gegen normal,
ermöglichen. Diese Metho- den basieren auf bestehender Genannotation und
bereits genomisch platzierten RNA- Seq Reads. Alle Methoden basieren auf einem
Poisson Modell, welches das zufällige Platzieren der Reads entlang der mRNA
beschreibt. Die Methoden werden auf RNA- Seq Datensätze von einer humanen-
embryonalen Niere (HEK) und einer humanen B-Zell Zelllinie angewendet. Mehrere
Tausend AEEs wurden in diesen Zelllinien vorhergesagt. Die Robustheit und
Genauigkeit der Vorhersagen wurde durch Sim- ulationen, Bootstrapping und RT-
PCR Validierungsexperimente bestätigt. Darüber hinaus wurde ein Vergleich von
den neuen Methoden für RNA-Seq und bestehenden Methoden für Exon Arrays
durchgeführt, der erhöhte Sensitivität und Genauigkeit für die RNA-Seq
basierten Vorhersagen offenbart. Zweitens wird eine neue Methode für die
Abschätzung von mRNA Expressions Leveln aus RNA-Seq Daten vorgeschlagen,
basierend auf vorhandenen Transkriptannotatio- nen und bereits genomisch
platzierten RNA-Seq Reads. Die Methode basiert auf dem Expectation-
Maximization Optimierungsverfahren. Die Korrektheit und theoretische Leistung
des Ansatzes wird durch Simulationen demonstriert. Anwendung auf HEK und
B-Zell RNA-Seq Daten und Vergleich mit Quantifizierung durch quantitative RT-
PCR Experimente bestätigen die Genauigkeit der Methode. Schlussendlich wird
die erste Methode vorgestellt die es erlaubt ein de novo "Assem- bly" eines
Transkriptoms eines Organismuses ausgehend von RNA-Seq Daten anzufer- tigen.
Dies ist ein wichtiges Problem, welches funktionale Analysen und Genentdeck-
ung für Organismen ermöglicht, von denen das Genom noch nicht sequenziert
wurde. Ein Wechsel vom traditionellen Overlap-Layout-Consensus Paradigma zur
Anwen- dung des Eulerpfad Ansatzes für Transkriptom Assembly wird
vorgeschlagen, ver- gleichbar mit der Entwicklung für de novo Genom Assembly.
Die Gemeinsamkeiten zwischen de Bruijn Graphen und Splicing Graphen wurden
erforscht und eine Theorie für de novo Vorhersagen von AEEs entwickelt.
Ausgehend von de Bruijn Graphen wurden Algorithmen entwickelt, die die
Vorhersage von kompletten mRNA Sequen- zen, unter Berücksichtigung von AEEs,
ermöglichen. Die Anwendung auf reellen RNA-Seq Daten demonstriert die
Verbesserung des neuen Ansatzes im Vergleich zur Anwendung von de novo Genom
Assemblierungsprogrammen, die bis dato für RNA- Seq Datensätze benutzt wurden.
Für einen RNA-Seq Datensatz einer Maus Zelllinie mit ungefähr 67 Mio. Reads
wurde ein Assembly von insgesamt 63 Megabasen erstellt . Dieses Assembly
beinhaltet ungefähr 6,900 mRNAs in vollständiger Länge, welches den Erfolg des
Ansatzes untermauert.
de
dc.format.extent
X, 139 S. + Anhänge
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Next Generation Sequencing
dc.subject
Alternative Splicing
dc.subject
Gene Expression
dc.subject
Transcript Expression
dc.subject
Transcriptome Assembly
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Data structures and algorithms for analysis of alternative splicing with RNA-
seq data
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Jens Stoye
dc.date.accepted
2010-08-26
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000020967-2
dc.title.translated
Datenstrukturen und Algorithmen für die Analyse von alternativem Spleißen mit
RNA-Seq Daten
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000020967
refubium.note.author
frühere Ausgabe
refubium.mycore.derivateId
FUDISS_derivate_000000008918
refubium.mycore.derivateId
FUDISS_derivate_000000008919
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access