Through the study of non-coding RNA (ncRNAs) with known function we have received increasingly insights into the fundamental principles of function and regulation of the transcriptome in recent years. The broadening of the transcriptome coverage by sequencing technologies and the growing multitude of transcriptional data, as well as other types of high-throughput biological measurements, require new computational tools and approaches as well as new analysis pipelines to extract biological meaning from the quickly growing volumes of biological data. In this thesis, I have used current knowledge of ncRNAs features to construct a set of computational and statistical methods and pipelines that can analyze sequence, expression and regulatory properties of two types of ncRNAs: microRNA (miRNA) and long noncoding RNA (lncRNA). To do so, I took advantage of the high-throughput sequencing data collected in primate brains at different ages, allowing me to monitor changes in ncRNA sequence and expression over the evolutionary and the ontogenetic dimensions. In Chapter 3, I described a computational framework I constructed for across- species miRNA comparison on the basis of small RNA sequencing data. The framework includes an efficient small RNA sequencing data preprocessing pipeline, a revised miRNA quantification procedure, a reliable miRNA ortholog prediction method and a pipeline for differentially expressed (DE) miRNA identification. In Chapter 4, I described a systematic study of miRNA 5’-isoforms, including their identification and functionality prediction in the human prefrontal cortex, to deepen our understanding of the complexity of the miRNA repertoire. I developed a comparative approach to predict the functionality of the identified miRNA 5’-isoforms, which resulted in 28 putative functional miRNA 5’-isoforms displaying regulatory features similar to known conserved miRNAs. In Chapter 5, I described a genome-wide lncRNA identification and feature investigation study using strand-specific RNA-seq data covering postnatal ontogenetic stages of human prefrontal cortex. This work integrates de novo transcriptome assembly procedure and downstream lncRNA analysis elements, including a pipeline for lncRNA identification and a detailed lncRNA sequence and expression feature analysis framework. The integrative analysis of lncRNAs expression and genome-wide epigenetic data lead to the identification of a novel class of lncRNA-associated bidirectional promoters that display unique sequence and epigenetic features and preferentially drive the expression of neuronal gene. To conclude, during my thesis work, I developed computational tools that allow researchers to process and integrate different types of large-scale biological data, such as high- throughput transcriptome sequencing, epigenetic data of chromatin modifications and protein abundance data, to identify and characterize two major types of non-coding RNAs: miRNAs and lncRNAs. These results indicate adequacy and appropriateness of the analytical approaches I developed and the statistical tools I used. I hope my work will serve as a useful stepping-stone for both computational and biological studies of the noncoding RNA universe.
Durch die Untersuchung von nicht-kodierender RNA (ncRNAs) mit bekannter Funktion haben wir in den letzten Jahren zunehmend Einblicke in die fundamentalen Prinzipien von Funktion und Regulation des Transkriptoms erhalten. Neue Sequenzierungstechnologien und weitere biologischen Hochdurchsatzanalysen produzieren immense Mengen von Transkriptionsdaten in immer höherer Sequenzierungstiefe. Das exponentielle Wachstum dieser Datenmengen verlangt nach neuen computergestützten Ansätzen und Methoden sowie neuen Analyse-Pipelines. In dieser Dissertation, stelle ich eine Reihe von computergestützten statistischen Methoden vor, die, zur Analyse von Sequenzinformationen, derr Expression und der Eigenschaften regulatorischer Netzwerke von zwei Arten von ncRNA, nämlich microRNA (miRNA) und langer, nicht kodierender RNA (lncRNA), anwendbar sind. Dafür analysiere ich zunächst Hochdurchsatz-Sequenzierungsdaten, die vom Gehirn verschiedener Primatenarten unterschiedlichen Alters her stammen, um Veränderungen in der genomischen Sequenz und Expression während Evolution und Ontogenese zu untersuchen. In Kapitel 3 erörtere ich die Grundlagen der vergleichenden Analyse von miRNA zwischen verschieden Spezies anhand von Sequenzierungsdaten kleiner RNAs. Zu diesen Grundlagen gehört ein Ansatz zur effizienten Vorverarbeitung der Sequenzierungsdaten, ein überarbeitetes Verfahren zur Quantifizierung von miRNAs, eine zuverlässige Methode zur Vorhersage von orthologer miRNA, sowie eine Pipeline zur Identifikation differentiell exprimierter (DE) miRNA. Im vierten Kapitel beschreibe ich eine systematische Studie über verschiedene 5’-miRNA Isoformen, inklusive deren Identifikation und Vorhersage der Funktion im humanen präfrontalen Cortex. Die vorliegende Studie liefert damit einen Ausblick darauf, wie die „versteckte Ebene“ des miRNA Repertoires untersuchen werden kann, und stellt zudem eine nützliche Ressource dar, um die Liste der bekannten, funktionellen miRNA durch neue 5’-Isoformen zu erweitern. Kapitel 5 beschäftigt sich mit der genomweiten Identifikation von lncRNA und der Untersuchung derer Eigenschaften basierend auf strangspezifischen RNA-seq Daten vom humanen präfrontalen Cortex, die die komplette postnatale Lebensspanne des Menschen abdecken. Die Ergebnisse dieser Analyse zeigen eine Reihe von bisher unbekannten lncRNAs, die im menschlichen Gehirn exprimiert werden, und demonstrieren eindrücklich, dass weite Teile des menschlichen Transkriptoms noch nicht charakterisiert sind. Darüber hinaus führte die integrative Analyse von lncRNA Expression und genomweiter epigenetischer Informationen zur Identifikation einer neuen Klasse von bidirektionalen Promotoren, die einzigartige Eigenschaften bezüglich Sequenz und epigenetischen Faktoren haben. Zusammenfassend habe ich während meiner Promotion computergestützte Tools und Pipelines entwickelt um verschiedene Arten von biologischen Hochdurchsatzdaten, wie zum Beispiel Hochdurchsatz- Transkriptom-Sequenzierung, epigenetische Chromatin-Modifikationen und quantitative Proteinanalysen zu verarbeiten und zu integrieren. Die Ergebnisse zeigen, dass die hier gewählten analytischen Ansätze und entwickelten Tools angemessen und geeignet für eine solche Analyse sind. Meine Arbeit stellt somit ein nützliches Hilfsmittel für zukünftige computergestützte und biologische Studien im Bereich der nicht-kodierenden RNA dar.