The knowledge of the transcriptome landscape is crucial in molecular biology, and increasingly more important for disease diagnosis and treatments. Broadly speaking, three layers contribute to the importance of the transcriptome landscape. First, the profile of all isoforms of protein-coding genes determines the development path of cells and organisms. Second, the profile of regulatory elements modulates the activity of protein-coding genes. Third, the interplay of protein-coding genes and regulatory elements shapes the dynamic property of transcriptome landscape. Identifying the players in the regulatory network is the first step for reverse-engineering molecular biology. In this thesis, I present four tailored analyses on projects belonging to the first two layers. First, a hybrid assembly pipeline is developed for identification of transcriptome independent of genomic sequences. By combining two complementary sequencing technologies in conjunction with efficient cDNA normalization, a high quality transcriptome can be characterized. It out- performs other assembly tools that focus on one type of input data, and the results are experimentally validated. Second, an analysis framework is developed to characterize full-length transcripts. By tailoring tools for long read-length sequencing technology, transcriptome landscape could be examined with greater detail. Moreover, the association of different RNA processing events could be experimentally measured. The application on fly Dscam gene transcripts resolved the independent splicing hypothesis and calls for re- examination of previous experiments. The application on rat brain greatly enhanced the transcriptome annotation, which is crucial for the neuroscience community that use rat as a model organism. Third, a de novo microRNA prediction tools is presented. By designing sequencing experiments that capture snapshots of miRNA biogenesis process, not only mature and precursor miRNAs could be identified, but also the information on miRNA processing and modification could be learnt. Proof- of-principle experiments on well-studies organism like mouse and C. elegans demonstrate the efficacy and application potential of this method. Finally, a customized pipeline is developed for profiling and characterizing circRNAs. By examining potential splicing junctions based on local alignments, circRNAs can be identified from the otherwise neglected RNA- Seq data. Tens of thousands of circRNAs are identified and quantified in mouse, rat and fly. Further experiments demonstrate that circRNAs are enriched in brain synapses and participate in brain development and neuronal homeostatic plasticity. In summary, this thesis presents four tailored analyses on different aspects of transcriptome landscape. The methods can be used in conjunction towards an integrated understanding of molecular biology and medicine.
Eine genaue Kenntnis des Transkriptoms ist von entscheidender Bedeutung im Bereich der Molekularbiologie und gewinnt Bedeutung bei der Diagnose von Krankheiten und deren Behandlung. Drei entscheidende Aspekte des Transkriptoms tragen zu dessen vielschichtiger Bedeutung bei. Zunächst definiert das Profil aller Isoformen der Protein-kodierenden Gene den Entwicklungspfad der Zellen und Organismen. Zweitens moduliert das Profil der regulatorischen Elemente die Aktivität der Protein-kodierenden Gene. Drittens prägt das Zusammenspiel der Protein-kodierenden Gene und regulatorischen Elemente die Dynamik des Transkriptoms. Die Identifizierung der einzelnen Bestandteile des regulatorischen Netzwerks ist der erste Schritt im Bereich des Reverse Engineering in der Molekularbiologie. In der vorliegenden Arbeit beschreibe ich vier Analysemethoden für Anwendungen, die sich mit den ersten beiden Aspekten beschäftigen. Als Erstes wurde eine Software-Pipeline entwickelt, die ohne Referenzgenom ein Assembly zur Identifizierung des Transkriptoms durchführt. Ein qualitativ hochwertiges Transkriptom konnte erstellt werden, indem zwei sich ergänzende Sequenziertechnologien und zusätzlich eine effiziente cDNA-Normalisierung kombiniert wurden. Die vorgestellte Pipeline übertrifft bestehende Programme, die nur auf eine einzige Art von Eingabedaten setzen. Darüber hinaus wurden die Ergebnisse experimentell bestätigt. Als Zweites wurden Analysemethoden erarbeitet, um vollständige Transkripte zu charakterisieren. Es wurden Werkzeuge für die Auswertung von Daten aus Sequenziertechnologien, die lange Reads liefern, entwickelt, mit denen das Transkriptom genauer untersucht werden kann. Des weiteren konnte damit das Zusammenspiel verschiedener Schritte der RNA-Prozessierung experimentell untersucht werden. Eine Untersuchung des Transkripts des Gens Dscam in der Fruchtfliege bestätigte die Hypothese des unabhängigen Spleißens, wodurch eine Neuauswertung früherer Experimente notwendig wird. Die Anwendung der Methode auf Sequenzierdaten des Rattengehirns verbesserte deutlich die Annotation des Transkriptoms. Dies ist von großer Bedeutung für die Neurobiologie, in der die Ratte als Modellorganismus eingesetzt wird. Als drittes wurde ein de-novo- miRNA-Vorhersagewerkzeug implementiert. Durch die Entwicklung von Sequenzierexperimenten, welche eine Momentaufnahme der miRNA-Entstehung liefern, können nicht nur prozessierte und Vorläufer-miRNAs identifiziert werden, sondern auch Details der miRNA-Prozessierung und -Modifikation beobachtet werden. Erste Experimente in Modellorganismen wie der Maus und C.elegans zeigten die Effizienz und das Anwendungspotential der Methode. Schließlich ist eine Pipeline zur Charakterisierung von zirkulärer RNA entwickelt worden. Durch die Untersuchung von potentiellen Spleißstellen basierend auf lokalen Alignments können zirkuläre RNAs aus ansonsten nicht berücksichtigten RNA-Sequenzdaten identifiziert werden. Zehntausende zirkuläre RNAs in Maus, Ratte und Fruchtfliege konnten identifiziert und quantifiziert werden. Weitere Experimente zeigen, dass zirkuläre RNAs in Gehirnsynapsen angereichert sind und bei der Entwicklung des Gehirns und neuronalen homöostatischen Plastizität beteiligt sind. Zusammenfassend beschreibt diese Arbeit vier Analysemethoden für verschiedene Aspekte des Transkriptoms. Die vorgestellten Methoden tragen gemeinsam zu einem ganzheitlichen Verständnis der Molekularbiologie und Medizin bei.