The purpose of my project is to identify novel functions of circRNAs with a particular focus on the effects of RNA--RNA interactions (RRI) on RNA processing. Computational prediction of RRI has revealed the biological function and mechanism of action of multiple genes. However, computational RRI prediction is limited by 2 major challenges: knowing the full sequence of the transcript and a high false-positive rate. Discovering the full sequence identity of circRNA has been a challenging task for bioinformatics in the last decade. In addition, the lack of knowledge of the full sequence of the transcripts in a sample leads to skewed quantification based on RNA-seq data, as well as incorrect results from analyses of NGS-derived techniques (e.g., CLIP-seq, SPLASH etc.). The problem of false discovery of new RRIs can be mitigated by dedicated experimental datasets. To overcome the first hurdle of my project, I developed CYCLeR , a computational tool that compares ribo-depleted and circRNA enriched RNA-seq libraries and outputs a high-confidence set of circRNA transcripts. The true strength of CYCLeR is the quantification module that can robustly estimate the abundances of both circular and linear transcripts. I have shown the advantage of CYCLeR over alternative tools in terms of transcript assembly and quantification. I have also shown that CYCLeR has is the only tool suitable to search for the functional association of circRNA transcripts. The second part of my work focuses on predicting functional RRIs that influence pluripotency. A co-expression network based on the output of CYCLeR can show the association of circRNA with known biological pathways and significantly facilitate the discovery of the function of circRNA. In vivo RNA proximity ligation experiments provide information on the dynamics of RNA-RNA interaction inside the cell. The combination of RNA-seq and RNA interactome data allows me to significantly enhance the strength of computational predictions. I build a co-expression network based on time series experiment of H1ESC treated with retinoic acid. I combine the co-expression information with results from analysis of RNA-RNA proximity ligation data (SPLASH). The analysis is supplemented with localisation information based on RNA-seq libraries specific for nuclear localisation. The results two circRNAs that participate in functional RRIs. circFIRRE is significantly enriched in SPLASH data, indicating a high probability of interaction with other RNAs. Interestingly, circFIRRE is one of the few circRNAs specifically enriched in the nucleus. The enrichment can be explained by the binding site for the hnRNPU protein, which keeps the circRNA in the nucleus. Knockout of the circFIRRE locus in human leads to a viral response. Multiple interaction sites of circFIRRE with ALU-specific sequences indicate that the viral response is triggered by disruption of A-to-I editing in cells. circLARP7 is another nuclear-specific circRNA. circLARP7 is co-expressed with all major markers for pluripotency. It is also expressed in high proximity to MIR302CHG -- a microRNA host gene related to maintaining the pluripotent state. High complementarity and conservation of a duplex between the circLARP7 and the nascent MIR302CHG indicate that circLARP7 might be related to the processing of the microRNAs from the miR-302/367 cluster.
Das Ziel meines Projekts ist es, neue Funktionen von circRNAs zu identifizieren, mit besonderem Fokus auf die Auswirkungen von RNA--RNA-Interaktionen (RRI) auf die RNA-Verarbeitung. Die computergestützte Vorhersage von RRI hat die biologische Funktion und den Wirkungsmechanismus mehrerer Gene offenbart. Jedoch wird die Vorhersage von RRI durch zwei wesentliche Herausforderungen beschränkt: die Kenntnis der vollständigen Sequenz des Transkripts und eine hohe falsch-positive Rate. Die Aufschlüsselung der vollständen Sequenz von circRNA stellte in den letzten zehn Jahren eine große Herausforderung für Bioinformatiker dar. Darüber hinaus führt die mangelnde Kenntnis der vollständigen Sequenz der Transkripte in einer Probe zu einer verzerrten Quantifizierung auf der Grundlage von RNA-seq-Daten sowie zu falschen Ergebnissen aus Analysen von NGS-abgeleiteten Techniken (z. B. CLIP-seq, SPLASH usw.). Das Problem einer hohen Falscherkennungsrate neuer RRIs kann durch Nutzung geeigneter experimenteller Datensätze begrenzt werden. Um die erste Hürde meines Projekts zu überwinden, habe ich CYCLeR entwickelt, ein Computertool, das Ribo-abgereicherte und circRNA-angereicherte RNA-seq-Bibliotheken vergleicht und einen Reihe von circRNA-Transkripten mit hoher Zuverlässigkeit ausgibt. Die wahre Stärke von CYCLeR ist das Quantifizierungsmodul, das die Häufigkeit von sowohl kreisförmigen als auch linearen Transkripten zuverlässig berechnen kann. Ich habe den Vorteil von CYCLeR gegenüber alternativen Tools in Bezug auf Transkript-Zusammenstellung und Quantifizierung aufgezeigt. Ich habe auch gezeigt, dass CYCLeR das einzige geeignete Werkzeug ist, um nach der funktionellen Verbindung von circRNA-Transkripten zu suchen. Der zweite Teil meiner Arbeit konzentriert sich auf die Vorhersage funktioneller RRIs, die die Pluripotenz beeinflussen. Ein auf der Ausgabe von CYCLeR basierendes Koexpressionsnetzwerk kann die Verbindung von circRNA mit bekannten biologischen Signalwegen aufzeigen und die Entdeckung der Funktion von circRNA erheblich erleichtern. In-vivo-RNA-Proximity-Ligation-Experimente liefern Informationen über die Dynamik der RNA-RNA-Interaktion innerhalb der Zelle. Die Kombination von RNA-Seq- und RNA-Interaktom-Daten ermöglicht es mir, die Aussagekraft von Computervorhersagen erheblich zu verbessern. Ich baue ein Koexpressionsnetzwerk basierend auf einem longitudinalen Experiment mit H1ESC Zellen, welche mit Retinsäure behandelt wurden und kombiniere die Koexpressionsinformationen mit Ergebnissen aus der Analyse von RNA-RNA-Proximity-Ligation-Daten (SPLASH). Die Analyse wird durch Lokalisierungsinformationen basierend auf RNA-seq-Bibliotheken ergänzt, die für die Kernlokalisierung spezifisch sind. Die Ergebnisse weisen auf zwei circRNAs hin, die an funktionellen RRIs beteiligt sind. circFIRRE ist in SPLASH-Daten signifikant angereichert, was auf eine hohe Wahrscheinlichkeit einer Wechselwirkung mit anderen RNAs hinweist. Interessanterweise ist circFIRRE eine der wenigen circRNAs, die spezifisch im Zellkern angereichert sind, was sich mit der Bindungsstelle für das hnRNPU-Protein erklären lässt, das die circRNA im Zellkern hält. Der Knockout des circFIRRE-Locus im Menschen führt zu einer viralen Reaktion. Mehrere Interaktionsstellen von circFIRRE mit ALU-spezifischen Sequenzen weisen darauf hin, dass die virale Reaktion durch Unterbrechung der A-zu-I-Editierung in Zellen ausgelöst wird. circLARP7 ist eine weitere kernspezifische circRNA und wird mit allen wichtigen Markern für Pluripotenz koexprimiert. Es wird auch in großer Nähe zu MIR302CHG exprimiert – einem Mikro-RNA-Wirtsgen, das mit der Aufrechterhaltung des pluripotenten Zustands in Zusammenhang steht. Hohe Komplementarität und Konservierung eines Duplex zwischen dem circLARP7 und dem entstehenden MIR302CHG deuten darauf hin, dass circLARP7 mit der Prozessierung der microRNAs aus dem miR-302/367-Cluster zusammenhängen könnte.