The transcriptome plays an important role in the life of a cell. Detailed analysis of the transcriptome enables interpretation of its structure and functionality. High throughput sequencing technology significantly enhanced the understanding of transcriptome activity. The RNA-sequencing process currently provides the most accurate estimation of gene expression levels. Moreover, RNA-seq allows detection of isoform structure and novel RNA types along with transcription process details such as strand-specificity and much more. The first chapter of this thesis describes the history of transcriptome exploration and effective methods of RNA-seq application. Nevertheless, all steps of RNA-seq process can produce a number of biases that influence the investigation results. Some typical errors appearing during ligation and amplification procedures might be present in any high throughput sequencing experiment, while other biases occur only in cDNA synthesis or are specific for transcriptome activity. Quality control of sequencing data is important to verify and correct the analysis results. The second chapter of this thesis is devoted to the explanation of these issues and introduces a novel tool, Qualimap 2. This instrument computes detailed statistics and presents a number of plots based on RNA-seq alignment and counts data processing. The generated results enable detection of problems that are specific to RNA-seq experiments. Notably, the tool supports analysis of multiple samples in various conditions. Qualimap 2 was faithfully compared to other available tools and demonstrated superior functionality in multi-sample quality control. Importantly, RNA-seq can be applied in a relatively novel research area: detection of chimeric transcripts and fusion genes occurring due to genomic rearrangement. Since fusions are related to cancer, their discovery is important not only for science, but also allows medical use of RNA-seq. The third chapter is devoted to the current status of this approach and illustrates a novel toolkit called InFusion, which provides a number of novelties in chimera discovery from RNA- seq data such as detection of fusions arising from the combination of a gene and an intronic or intergenic region. Moreover, strand-specificity of expressed fusion transcripts can be detected and reported. InFusion was compared in detail to a number of other existing tools based on simulated and real datasets and demonstrated higher precision and recall. Overall, RNA- sequencing technology goes further and more specialized analysis abilities are becoming available. New applications of RNA sequencing and future directions of research are discussed in the last chapter.
Die Transkription ist ein wichtiger Prozess in biologischen Zellen. Eine genaue Analyse des Transkriptomes eröffnet die Möglichkeit seine Struktur und Funktionen auf neue Weise zu interpretieren. Hochdurchsatzsequenzierunsmethoden haben das Verständnis der Veränderungen im Transkriptom signifikant erhöht. Die RNA-Sequenzierung ist im Moment die akkurateste Methode zur Bestimmung von Genexpressionsniveaus. Weiterhin erlaubt RNA-Seq die Bestimmung von Transkriptisoformen sowie neuen RNA-Formen zusammen mit notwendigen Details, wie unter anderem Strandspezifität. Das erste Kapitel der Dissertation beschreibt die Geschichte der Erforschung des Transkriptoms und effektive Methoden für die Anwendung von RNA-Seq. In allen Abschnitten des RNA-Seq Prozesses kann es zur Verzerrung der wissenschaftlichen Ergebnisse durch verschiedene Störfaktoren kommen. Einige typische Fehler, z.B. während der Ligation und Amplifizierung sind dabei allen Hochdurchsatzsequenzierungsmethoden gemein, während andere spezifisch bei der Sequenzierung von mRNAs auftreten. Eine entsprechende Qualitätskontrolle ist daher wichtig um Analyseergebnisse zu kontrollieren und zu korrigieren. Das zweite Kapitel dieser Arbeit widmet sich der Beschreibung relevanter Parameter der Qualitätskontrolle und führt als neues Werkzeug Qualimap2 ein. Diese Software berechnet detaillierte Statistiken und generiert eine Anzahl von aussagekräftigen Diagrammen auf der Basis von RNA-Seq Alignments, wodurch für diese Anwendung typische Probleme erkannt werden können. Insbesondere erlaubt das Programm den Vergleich mehrerer Proben aus verschiedenen Bedingungen. Qualimap2 wurde ausgiebig mit ähnlicher Software verglichen und zeigt eine bessere Funktionalität für die Qualitätskontrolle mehrerer Proben. RNA-Seq kann zur Detektion von bisher unbekannten Transkripten benutzt werden, so z.B. zur Detektion von Transkriptchimären und Fusionsgenen, die bei genomischen Rearrangements entstehen. Da Fusionen häufig in Tumorzellen auftreten, ist ihre Bestimmung nicht nur aus wissenschaftlichen Gründen relevant sondern zeigt auch die medizinische Relevanz von RNA-Seq. Das dritte Kapitel widmet sich der Beschreibung des derzeitigen Kenntnisstands dieses Gebietes und beschreibt mit InFusion ein neue Softwaremethode, die eine Reihe von neuen Ansätzen für die Detektion von chimärischen Transkripten auf der Basis von RNA-Seq Daten wie zum Beispiel die Erkennung von Fusionen mit intronischen und intergenischen Regionen. Weiterhin kann die Strand-Spezifizität der exprimierten Fusionstranskripte erkannt und ausgegeben werden. InFusion wurde mit mehreren existierenden Tools auf der Basis von simulierten und realen Datensätzen verglichen und dabei zeigt eine bessere Präzision und Sensitivität. Mit dem Fortschritt der RNA-Sequezierungsmethoden werden zunehmend spezialisiertere Analysen möglich. Diese Entwicklungen der RNA-Seq Technologie und neue Forschungsrichtungen werden im letzten Kapitel besprochen.