The bioinformatics side has become the ‘bottleneck’ of all high-throughput based biological studies. Next-generation sequencers (NGS) produce millions of sequences (reads) in a short amount of time at low costs. A major problem is the handling and analysis of these large-scale data sets in an efficient and systematic way. Bioinformatics methods can be applied to analyze generated high-throughput sequencing data computationally and therefore help to address biological questions. This thesis approaches computational challenges and biological questions that arise when investigating microRNA genes (miRNAs) in nematodes using NGS technologies (ABI SOLiD, Illumina GA II, and HiSeq). On the one hand, bioinformatics methods and computational strategies were identified and developed to analyze experimental large-scale small RNA data. These data sets were generated in-house and by collaborators as well as publicly available. On the other hand, this work addresses the question whether miRNA genes impact developmental arrest and long-term survival in dauer larvae of two free-living nematodes (Caenorhabditis elegans (C. elegans) and Pristionchus pacificus (P. pacificus)) and the infective stage of parasites (Strongyloides ratti (S. ratti)). In particular, I address the long- standing hypothesis that dauer and infective larvae share a common origin. This investigation is specifically focused on determining whether these two larval stages exhibit similar miRNA expression signatures. In the first part of this study I developed a bioinformatics workflow that characterizes the miRNA gene complement in C. elegans, P. pacificus, and S. ratti and investigates their expression levels. Additionally, this workflow infers miRNA gene families and integrates the observed phylogenetic relationships with measured expression level changes. As part of this study, I was involved in the development of FLEXBAR (published 2012 in the special issue “Next- Generation Sequencing Approaches in Biology”, Biology), a program that I applied to preprocess our small RNA sequencing data. FLEXBAR is a versatile solution for three critical preprocessing steps in any next- generation processing pipeline: (i) basic clipping and quality filtering, (ii) barcode recognition and processing, and (iii) adapter recognition and removal. Importantly, all of these steps can be performed in one program call and executed in parallel. FLEXBAR performs slightly better than FASTX, which is widely considered to be the best of all (selected) competitors in removing adapters from an Illumina read (benchmark I). Furthermore, FLEXBAR covers a large range of sequencing platform applications, formats, and features and provides detailed output statistics, e.g. graphical output of read alignments. In the second part of this study I applied the bioinformatics workflow to address the question whether miRNAs impact developmental arrest and long term survival in dauer and infective larvae of nematodes (published 2013 in Genome Biology and Evolution). This study identifies and extends the number of described miRNA genes to 257 for C. elegans, tripled the known gene set for P. pacificus to 362 miRNAs, and reports the first miRNAs in a Strongyloides parasite, i.e. 106 miRNAs in S. ratti. Although our data suggests that miRNA gene sets diverged rapidly in nematodes, my in-depth assessment of miRNAs in free-living and parasitic nematodes revealed conserved miRNA gene families with similar expression signatures in dauer and infective larvae. This finding suggests that common post-transcriptional regulatory mechanisms are at work and that the same miRNA families play important roles in developmental arrest and long-term survival in free-living and parasitic nematodes. Moreover, this result supports the hypothesis that dauer and infective larvae share a common origin. Taken together, this thesis describes an extensive set of bioinformatic tools and strategies for the analysis of miRNA genes in free- living and parasitic nematodes and constitutes a valuable resource to researchers studying miRNA evolution and in particular, any aspects of developmental arrest. The starting point of this work was the identification of miRNAs in high-throughput small RNA sequencing data profiled by two distinct sequencing platforms. In this context, I provided sophisticated bioinformatic solutions to analyze small RNA sequencing data sets and to address the aforementioned questions computationally.
Seit der Einführung und Etablierung von Next-Generation-Sequenzierern (NGS) hat die Bioinformatik auf dem Gebiet der Genomforschung entscheidend an Bedeutung gewonnen. Mit Hilfe von NGS werden Millionen von DNS-Fragmenten (Reads) innerhalb kürzester Zeit mit sehr geringen Kosten ausgelesen. Das Handling, sowie eine effiziente und systematische Auswertung dieser Hochdurchsatz-Daten, stellt jede biologische Studie vor große Herausforderungen. Durch bioinformatische Methoden wird es möglich gemacht, Hochdurchsatz-Sequenzierungsdaten computergestützt zu analysieren und auszuwerten und somit biologischen Fragestellungen zugänglich zu machen. Diese Dissertation beschäftigt sich mit den bioinformatischen und biologischen Fragestellungen, die sich bei der Untersuchung von microRNA Genen (miRNAs) in Nematoden mit Hilfe von NGS Technologien (ABI SOLiD, Illumina GA II, and HiSeq) ergeben. Einerseits wurden moderne computergestützte Ansätze und Methoden aus der Bioinformatik und Statistik angewendet oder eigens entwickelt, um experimentell generierte Hochdurchsatz-Daten von kleinen RNA- Sequenzen auszuwerten. Diese wurden innerhalb der Arbeitsgruppe und von Projektmitarbeitern gemessen oder öffentlich zugänglichen Datensätzen entnommen. Andererseits wurde der Einfluss von miRNAs auf den Entwicklungsstillstand in Nematoden und auf das langfristige Überleben von Larven im Dauerstadium zweier frei lebender Nematoden (Caenorhabditis elegans (C. elegans) und Pristionchus pacificus (P. pacificus)) und Larven im infektiösen Stadium eines Parasiten (Strongyloides ratti (S. ratti)) untersucht. Ziel war es die langjährige Hypothese zu überprüfen, dass Dauerlarven und infektiöse Larven dieselbe Abstammung hätten. Im Speziellen wurde zu diesem Zweck untersucht, ob diese beiden Larvenstadien ähnliche miRNA Expressionsmuster aufweisen. Im ersten Teil dieser Studie habe ich einen Ansatz für eine rechnergestützt systematische Auswertung entwickelt, mit dessen Hilfe das miRNA Repertoire von C. elegans, P. pacificus, und S. ratti bestimmt und ergänzt wurde und deren Expression ausgewertet werden konnte. Außerdem wurden auf diese Weise miRNA-Genfamilien hergeleitet und deren phylogenetische Abhängigkeiten mit den gemessenen Genexpressionsveränderungen in Zusammenhang gebracht. Im Rahmen dieser Studie war ich an der Entwicklung von FLEXBAR (veröffentlicht 2012 in einer Spezialausgabe von ”Next-Generation Sequencing Approaches in Biology”, Biology) beteiligt, ein Programm, das ich zum Vorverarbeiten von unseren NGS-Datensätzen eingesetzt habe. FLEXBAR ist ein vielseitiges Programm, das für drei wichtige Vorverarbeitungsschritte in NGS-Experimenten angewandt werden kann: einfaches Kürzen von NGS-Reads und Qualitätskontrolle, Barcodeerkennung und -verarbeitung, Adaptererkennung und -entfernung. Eine wesentliche Eigenschaft von FLEXBAR ist es, all diese Verarbeitungsschritte in einem Programmaufruf und parallelisiert auszuführen. Die Benchmark-Tests zeigen, dass FLEXBAR etwas bessere Ergebnisse liefert als FASTX, ein häufig angewendetes Programm zum Entfernen von Adaptersequenzen in Illumina-Reads (BenchmarkTest I). Darüber hinaus kann FLEXBAR mit den verschiedensten SequenziertechnologieAnwendungen, Dateiformaten und Eigenschaften umgehen und liefert zudem detaillierte Ausgabestatistiken wie beispielsweise eine grafische Ausgabe von Sequenzalignments. Im zweiten Teil dieser Studie wende ich die zuvor entwickelten bioinformatischen Methoden und Strategien an, um meine biologischen Fragen hinsichtlich der Auswirkung von miRNAs in Dauer und in infektiösen Larvenstadien von Nematoden zu untersuchen (veröffentlicht 2013 in Genome Biology and Evolution). Die Auswertung unserer Hochdurchsatz-Daten zeigt, dass die bereits bekannten miRNA Gensätze in C. elegans und P. pacificus zuverlässig identifiziert und mit neuen zuvor unbekannten Genen ergänzt werden konnten. Die Anzahl der bereits beschriebenen Gene von C. elegans wurde auf insgesamt 257 miRNAs erhöht und diejenigen von P. pacificus auf 362 miRNAs verdreifacht. Außerdem konnten mit der Untersuchung von S. ratti erstmals 106 miRNAs eines Strongyloides Parasiten veröffentlicht werden. Obwohl unsere Daten darauf hinweisen, dass miRNA Gene in Nematoden evolutiv schnell divergieren, konnte meine tiefgehende Analyse von miRNAs in frei lebenden und parasitären Nematoden konservierte miRNA- Genfamilien mit ähnlichen Expressionsmustern in Dauer und in infektiösen Larven aufdecken. Dieses Ergebnis weist darauf hin, dass ähnliche posttranskriptionelle regulatorische Mechanismen in Dauer und in infektiösen Larven wirken und dass dieselben Genfamilien für deren Entwicklungsstillstand und langfristiges Überleben eine wichtige Rolle spielen. Zudem stützt dieses Resultat die oben genannte Hypothese, dass Dauerlarven und infektiöse Larven möglicherweise dieselbe Abstammung haben. Zusammenfassend liefert diese Dissertation eine umfangreiche Darstellung von bioinformatischen Analysewerkzeugen und Strategien für die Auswertung von miRNAs in frei lebenden und parasitären Nematoden. Sie stellt somit eine wertvoll Quelle dar für Forscher, die sich mit miRNA-Evolution und speziell mit allen Aspekten des Entwicklungsstillstandes beschäftigen. Der Ausgangspunkt dieser Arbeit war die Identifikation von miRNAs in Hochdurchsatz-Sequenzierdaten, die mittels zwei verschiedenen NGSTechnologien erzeugt wurden. In diesem Zusammenhang habe ich bioinformatische Analysestrategien entwickelt, um die Sequenzierdaten von kleinen RNAs auszuwerten und die bereits erwähnten biologischen Fragen rechnergestützt zu untersuchen.