MicroRNAs (miRNAs) constitute an important class of small regulatory RNAs that are derived from distinct hairpin precursors (pre-miRNAs). In contrast to mature miRNAs, which have been well characterized in numerous genome-wide studies of different organisms, research on global profiling of pre-miRNAs is limited. Here, using massive parallel sequencing, we have for the first time performed global characterization of both mouse miRNAs and pre-miRNAs. In total, 87,369,704 and 252,003 sequencing reads derived from 887 miRNAs and 281 pre-miRNAs were obtained, respectively. With the sequence information of both, especially the pre-miRNAs which to our knowledge have not before been sequenced in genome-wide manner, several new aspects of processing and modification of known mouse miRNAs, including Ago2-cleaved premiRNAs,new instances of miRNA editing events, untemplated nucleotide additions at the 3’end of both miRNAs and the hairpin precursors, as well as exclusively 5’ tailed mirtrons, were revealed. Furthermore, based on the sequences of both mature and precursor miRNAs, we developed a novel miRNA discovery strategy that did not rely on the availability of genome reference sequences. With this strategy 238 known mouse pre-miRNAs could be recovered and 69 novel ones were predicted with high confidence. Similar to the known ones, the mature miRNAs derived from most of these novel loci showed reduced abundance following Dicer knock down. Evaluation on another dataset from C. elegans demonstrated that our pipeline could be applied for miRNA discovery in different organisms, especially in the absence of a reference genome. We believe our method could be widely used in the study of miRNAs not only in the organisms whose genome has not yet been sequenced, but also in samples where the genome differs significantly from the reference sequences, such as cancer.
MicroRNAs (miRNAs) stellen eine Klasse kleiner, regulatorischer RNA Moleküle dar, die aus längeren Vorläufer Molekülen hergestellt werden. Diese sogenannten 'precursor miRNAs' (pre-miRNAs) haben eine charakteristische Haarnadel Sekundärstruktur. Obwohl diese premiRNAs eine substanzielle Rolle bei der Entstehung der miRNAs spielen, sind diese im Vergleich zu miRNAs nur wenig untersucht worden. Dies läßt sich auch anhand der zahlreichen Publikationen über genomweite Untersuchungen von miRNAs in verschiedenen Organismen nachvollziehen. In dieser Arbeit wird zum ersten Mal mit Hilfe von so genanntem 'massive parallel sequencing' eine genomweite Analyse beschrieben, in der miRNAs und pre-miRNAs simultan in dem selben Organismus untersucht werden. Insgesammt wurden 87.369.704 miRNA Moleküle und 252.003 Vorlauefer Moleküle sequenziert. Diese Moleküle konnten 887 miRNAs bzw. 281 verschiedenen pre-miRNAs zugeordnet werden. Mit dem Wissen über die Menge der Moleküle von miRNAs und pre-miRNAs konnten neue Einsichten bezüglich der Prozessierung und Modifikation von annotierten Maus miRNAs gewonnen werden. Unter anderem erhielten wir neue Informationen über durch Ago2 geschnittene pre-miRNAs, neue miRNA Modifikationen, zusätzliche Nukleotidvorkommmen am 3'-Ende von miRNAs und pre-miRNAs sowie mirtrons, deren 3'-Ende das Resultat von pre-mRNA Splicing ist. Desweiteren haben wir eine computergestütze Methode entwickelt, die die miRNA und premiRNA Sequenzierdaten benutzt um neue miRNAs zu identifizieren. Im Vergleich zu anderen Methoden benötigt unser Ansatz kein Referenzgenom. Insgesamt haben wir 238 bekannte Maus pre-miRNAs identifiziert und 69 neue vorhergesagt. Durch einen sogenannten 'Knockdown' des Dicer Gens konnten wir eine ähnliche Verminderung der vorhergesagten miRNAs feststellen, wie dies auch bei den bekannten miRNAs der Fall war. Eine Evaluierung unserer Methode auf C. elegans Daten hat deutlich gezeigt, dass unser Ansatz auch in anderen Organismen gut funktioniert. Die Tatsache, dass kein Referenzgenom benötigt wird, macht unsere Methode auch nützlich für Organismen ohne sequenziertes Genom. Wir sind der Überzeugung, dass unsere Methode sehr gut für die Identifikation von miRNAs in Organismus sowohl mit bereits sequenziertem Genom als auch nicht sequenziertem Genom geeignet ist. Darüber hinaus ist dieser Ansatz auch auf stark veränderte Genome, wie dies z.B. bei den meisten Krebszellen der Fall ist, anwendbar.