dc.contributor.author
Hu, Haiyang
dc.date.accessioned
2018-06-08T01:02:02Z
dc.date.available
2016-03-16T13:44:18.677Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12849
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-17047
dc.description.abstract
Through the study of non-coding RNA (ncRNAs) with known function we have
received increasingly insights into the fundamental principles of function and
regulation of the transcriptome in recent years. The broadening of the
transcriptome coverage by sequencing technologies and the growing multitude of
transcriptional data, as well as other types of high-throughput biological
measurements, require new computational tools and approaches as well as new
analysis pipelines to extract biological meaning from the quickly growing
volumes of biological data. In this thesis, I have used current knowledge of
ncRNAs features to construct a set of computational and statistical methods
and pipelines that can analyze sequence, expression and regulatory properties
of two types of ncRNAs: microRNA (miRNA) and long noncoding RNA (lncRNA). To
do so, I took advantage of the high-throughput sequencing data collected in
primate brains at different ages, allowing me to monitor changes in ncRNA
sequence and expression over the evolutionary and the ontogenetic dimensions.
In Chapter 3, I described a computational framework I constructed for across-
species miRNA comparison on the basis of small RNA sequencing data. The
framework includes an efficient small RNA sequencing data preprocessing
pipeline, a revised miRNA quantification procedure, a reliable miRNA ortholog
prediction method and a pipeline for differentially expressed (DE) miRNA
identification. In Chapter 4, I described a systematic study of miRNA
5’-isoforms, including their identification and functionality prediction in
the human prefrontal cortex, to deepen our understanding of the complexity of
the miRNA repertoire. I developed a comparative approach to predict the
functionality of the identified miRNA 5’-isoforms, which resulted in 28
putative functional miRNA 5’-isoforms displaying regulatory features similar
to known conserved miRNAs. In Chapter 5, I described a genome-wide lncRNA
identification and feature investigation study using strand-specific RNA-seq
data covering postnatal ontogenetic stages of human prefrontal cortex. This
work integrates de novo transcriptome assembly procedure and downstream lncRNA
analysis elements, including a pipeline for lncRNA identification and a
detailed lncRNA sequence and expression feature analysis framework. The
integrative analysis of lncRNAs expression and genome-wide epigenetic data
lead to the identification of a novel class of lncRNA-associated bidirectional
promoters that display unique sequence and epigenetic features and
preferentially drive the expression of neuronal gene. To conclude, during my
thesis work, I developed computational tools that allow researchers to process
and integrate different types of large-scale biological data, such as high-
throughput transcriptome sequencing, epigenetic data of chromatin
modifications and protein abundance data, to identify and characterize two
major types of non-coding RNAs: miRNAs and lncRNAs. These results indicate
adequacy and appropriateness of the analytical approaches I developed and the
statistical tools I used. I hope my work will serve as a useful stepping-stone
for both computational and biological studies of the noncoding RNA universe.
de
dc.description.abstract
Durch die Untersuchung von nicht-kodierender RNA (ncRNAs) mit bekannter
Funktion haben wir in den letzten Jahren zunehmend Einblicke in die
fundamentalen Prinzipien von Funktion und Regulation des Transkriptoms
erhalten. Neue Sequenzierungstechnologien und weitere biologischen
Hochdurchsatzanalysen produzieren immense Mengen von Transkriptionsdaten in
immer höherer Sequenzierungstiefe. Das exponentielle Wachstum dieser
Datenmengen verlangt nach neuen computergestützten Ansätzen und Methoden sowie
neuen Analyse-Pipelines. In dieser Dissertation, stelle ich eine Reihe von
computergestützten statistischen Methoden vor, die, zur Analyse von
Sequenzinformationen, derr Expression und der Eigenschaften regulatorischer
Netzwerke von zwei Arten von ncRNA, nämlich microRNA (miRNA) und langer, nicht
kodierender RNA (lncRNA), anwendbar sind. Dafür analysiere ich zunächst
Hochdurchsatz-Sequenzierungsdaten, die vom Gehirn verschiedener Primatenarten
unterschiedlichen Alters her stammen, um Veränderungen in der genomischen
Sequenz und Expression während Evolution und Ontogenese zu untersuchen. In
Kapitel 3 erörtere ich die Grundlagen der vergleichenden Analyse von miRNA
zwischen verschieden Spezies anhand von Sequenzierungsdaten kleiner RNAs. Zu
diesen Grundlagen gehört ein Ansatz zur effizienten Vorverarbeitung der
Sequenzierungsdaten, ein überarbeitetes Verfahren zur Quantifizierung von
miRNAs, eine zuverlässige Methode zur Vorhersage von orthologer miRNA, sowie
eine Pipeline zur Identifikation differentiell exprimierter (DE) miRNA. Im
vierten Kapitel beschreibe ich eine systematische Studie über verschiedene
5’-miRNA Isoformen, inklusive deren Identifikation und Vorhersage der Funktion
im humanen präfrontalen Cortex. Die vorliegende Studie liefert damit einen
Ausblick darauf, wie die „versteckte Ebene“ des miRNA Repertoires untersuchen
werden kann, und stellt zudem eine nützliche Ressource dar, um die Liste der
bekannten, funktionellen miRNA durch neue 5’-Isoformen zu erweitern. Kapitel 5
beschäftigt sich mit der genomweiten Identifikation von lncRNA und der
Untersuchung derer Eigenschaften basierend auf strangspezifischen RNA-seq
Daten vom humanen präfrontalen Cortex, die die komplette postnatale
Lebensspanne des Menschen abdecken. Die Ergebnisse dieser Analyse zeigen eine
Reihe von bisher unbekannten lncRNAs, die im menschlichen Gehirn exprimiert
werden, und demonstrieren eindrücklich, dass weite Teile des menschlichen
Transkriptoms noch nicht charakterisiert sind. Darüber hinaus führte die
integrative Analyse von lncRNA Expression und genomweiter epigenetischer
Informationen zur Identifikation einer neuen Klasse von bidirektionalen
Promotoren, die einzigartige Eigenschaften bezüglich Sequenz und
epigenetischen Faktoren haben. Zusammenfassend habe ich während meiner
Promotion computergestützte Tools und Pipelines entwickelt um verschiedene
Arten von biologischen Hochdurchsatzdaten, wie zum Beispiel Hochdurchsatz-
Transkriptom-Sequenzierung, epigenetische Chromatin-Modifikationen und
quantitative Proteinanalysen zu verarbeiten und zu integrieren. Die Ergebnisse
zeigen, dass die hier gewählten analytischen Ansätze und entwickelten Tools
angemessen und geeignet für eine solche Analyse sind. Meine Arbeit stellt
somit ein nützliches Hilfsmittel für zukünftige computergestützte und
biologische Studien im Bereich der nicht-kodierenden RNA dar.
de
dc.format.extent
ii, 136 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Noncoding RNAs
dc.subject
deep sequencing
dc.subject
sequence feature
dc.subject
expression feature
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::515 Analysis
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::576 Genetik und Evolution
dc.title
Computational and Statistical Analysis of Sequence and Expression Features of
MicroRNA and Long Noncoding RNA in Primate Brains
dc.contributor.contact
oceanhu@126.com
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Philipp Khaitovich
dc.date.accepted
2016-01-22
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000101364-6
dc.title.translated
Computer- und Statistische Analyse der Sequenz und Expression Features der
microRNA und langer nicht kodierender RNA der Primatenarten Gehirne
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000101364
refubium.mycore.derivateId
FUDISS_derivate_000000018692
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access