dc.contributor.author
You, Xintian Arthur
dc.date.accessioned
2018-06-07T23:32:55Z
dc.date.available
2015-12-22T14:51:17.121Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/10618
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-14816
dc.description.abstract
The knowledge of the transcriptome landscape is crucial in molecular biology,
and increasingly more important for disease diagnosis and treatments. Broadly
speaking, three layers contribute to the importance of the transcriptome
landscape. First, the profile of all isoforms of protein-coding genes
determines the development path of cells and organisms. Second, the profile of
regulatory elements modulates the activity of protein-coding genes. Third, the
interplay of protein-coding genes and regulatory elements shapes the dynamic
property of transcriptome landscape. Identifying the players in the regulatory
network is the first step for reverse-engineering molecular biology. In this
thesis, I present four tailored analyses on projects belonging to the first
two layers. First, a hybrid assembly pipeline is developed for identification
of transcriptome independent of genomic sequences. By combining two
complementary sequencing technologies in conjunction with efficient cDNA
normalization, a high quality transcriptome can be characterized. It out-
performs other assembly tools that focus on one type of input data, and the
results are experimentally validated. Second, an analysis framework is
developed to characterize full-length transcripts. By tailoring tools for long
read-length sequencing technology, transcriptome landscape could be examined
with greater detail. Moreover, the association of different RNA processing
events could be experimentally measured. The application on fly Dscam gene
transcripts resolved the independent splicing hypothesis and calls for re-
examination of previous experiments. The application on rat brain greatly
enhanced the transcriptome annotation, which is crucial for the neuroscience
community that use rat as a model organism. Third, a de novo microRNA
prediction tools is presented. By designing sequencing experiments that
capture snapshots of miRNA biogenesis process, not only mature and precursor
miRNAs could be identified, but also the information on miRNA processing and
modification could be learnt. Proof- of-principle experiments on well-studies
organism like mouse and C. elegans demonstrate the efficacy and application
potential of this method. Finally, a customized pipeline is developed for
profiling and characterizing circRNAs. By examining potential splicing
junctions based on local alignments, circRNAs can be identified from the
otherwise neglected RNA- Seq data. Tens of thousands of circRNAs are
identified and quantified in mouse, rat and fly. Further experiments
demonstrate that circRNAs are enriched in brain synapses and participate in
brain development and neuronal homeostatic plasticity. In summary, this thesis
presents four tailored analyses on different aspects of transcriptome
landscape. The methods can be used in conjunction towards an integrated
understanding of molecular biology and medicine.
de
dc.description.abstract
Eine genaue Kenntnis des Transkriptoms ist von entscheidender Bedeutung im
Bereich der Molekularbiologie und gewinnt Bedeutung bei der Diagnose von
Krankheiten und deren Behandlung. Drei entscheidende Aspekte des Transkriptoms
tragen zu dessen vielschichtiger Bedeutung bei. Zunächst definiert das Profil
aller Isoformen der Protein-kodierenden Gene den Entwicklungspfad der Zellen
und Organismen. Zweitens moduliert das Profil der regulatorischen Elemente die
Aktivität der Protein-kodierenden Gene. Drittens prägt das Zusammenspiel der
Protein-kodierenden Gene und regulatorischen Elemente die Dynamik des
Transkriptoms. Die Identifizierung der einzelnen Bestandteile des
regulatorischen Netzwerks ist der erste Schritt im Bereich des Reverse
Engineering in der Molekularbiologie. In der vorliegenden Arbeit beschreibe
ich vier Analysemethoden für Anwendungen, die sich mit den ersten beiden
Aspekten beschäftigen. Als Erstes wurde eine Software-Pipeline entwickelt, die
ohne Referenzgenom ein Assembly zur Identifizierung des Transkriptoms
durchführt. Ein qualitativ hochwertiges Transkriptom konnte erstellt werden,
indem zwei sich ergänzende Sequenziertechnologien und zusätzlich eine
effiziente cDNA-Normalisierung kombiniert wurden. Die vorgestellte Pipeline
übertrifft bestehende Programme, die nur auf eine einzige Art von Eingabedaten
setzen. Darüber hinaus wurden die Ergebnisse experimentell bestätigt. Als
Zweites wurden Analysemethoden erarbeitet, um vollständige Transkripte zu
charakterisieren. Es wurden Werkzeuge für die Auswertung von Daten aus
Sequenziertechnologien, die lange Reads liefern, entwickelt, mit denen das
Transkriptom genauer untersucht werden kann. Des weiteren konnte damit das
Zusammenspiel verschiedener Schritte der RNA-Prozessierung experimentell
untersucht werden. Eine Untersuchung des Transkripts des Gens Dscam in der
Fruchtfliege bestätigte die Hypothese des unabhängigen Spleißens, wodurch eine
Neuauswertung früherer Experimente notwendig wird. Die Anwendung der Methode
auf Sequenzierdaten des Rattengehirns verbesserte deutlich die Annotation des
Transkriptoms. Dies ist von großer Bedeutung für die Neurobiologie, in der die
Ratte als Modellorganismus eingesetzt wird. Als drittes wurde ein de-novo-
miRNA-Vorhersagewerkzeug implementiert. Durch die Entwicklung von
Sequenzierexperimenten, welche eine Momentaufnahme der miRNA-Entstehung
liefern, können nicht nur prozessierte und Vorläufer-miRNAs identifiziert
werden, sondern auch Details der miRNA-Prozessierung und -Modifikation
beobachtet werden. Erste Experimente in Modellorganismen wie der Maus und
C.elegans zeigten die Effizienz und das Anwendungspotential der Methode.
Schließlich ist eine Pipeline zur Charakterisierung von zirkulärer RNA
entwickelt worden. Durch die Untersuchung von potentiellen Spleißstellen
basierend auf lokalen Alignments können zirkuläre RNAs aus ansonsten nicht
berücksichtigten RNA-Sequenzdaten identifiziert werden. Zehntausende zirkuläre
RNAs in Maus, Ratte und Fruchtfliege konnten identifiziert und quantifiziert
werden. Weitere Experimente zeigen, dass zirkuläre RNAs in Gehirnsynapsen
angereichert sind und bei der Entwicklung des Gehirns und neuronalen
homöostatischen Plastizität beteiligt sind. Zusammenfassend beschreibt diese
Arbeit vier Analysemethoden für verschiedene Aspekte des Transkriptoms. Die
vorgestellten Methoden tragen gemeinsam zu einem ganzheitlichen Verständnis
der Molekularbiologie und Medizin bei.
de
dc.format.extent
127 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Tailored analysis
dc.subject
Bioinformatics
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::005 Computerprogrammierung, Programme, Daten
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Tailored Analysis in Studying Transcriptome Landscape
dc.contributor.firstReferee
Prof. Dr. Knut Reinert
dc.contributor.furtherReferee
Prof. Dr. Wei Chen
dc.date.accepted
2015-12-14
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000100964-9
dc.title.translated
Maßgeschneiderte Analyse beim Studium der Transkriptom-Landschaft
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000100964
refubium.mycore.derivateId
FUDISS_derivate_000000018360
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access