Metagenomics provides the means to study the vast and still mostly unknown microbial world which comprises at least half of earth's genetic diversity. Computational metagenomics enables those discoveries via analysis of large amounts of data which are being generated in a fast pace with high-throughput technologies. Reference-based methods are commonly used to study environmental samples based on a set of previously assembled reference sequences which are often linked to a taxonomic classification. Finding the origin of each sequenced fragment and profiling an environmental sample as a whole are the main goals of binning and taxonomic profiling tools, respectively.
In this thesis I present three methods in computational metagenomics. Sets of curated reference sequences jointly with taxonomic classification are employed to characterize community samples. The main goal of those contributions is to improve the state-of-the-art of taxonomic profiling and binning, with fast, sensitive and precise methods.
First I present ganon, a sequence classification tool for metagenomics which works with a very large number of reference sequences. Ganon provides an efficient method to index sequences and to keep those indices updated in very short time. In addition, ganon performs taxonomic binning with strongly improved precision compared to the current available methods. For a general profiling of metagenomic samples and abundance estimation I introduce DUDes. Rather than predicting strains in the sample based only on relative abundances, DUDes first identifies possible candidates by comparing the strength of mapped reads in each node of the taxonomic tree in an iterative top-down manner. This technique works in an opposite direction of the lowest common ancestor approach. Lastly, I present MetaMeta, a pipeline to execute metagenome analysis tools and integrate their results. MetaMeta is a method to combine and enhance results from multiple taxonomic binning and profiling tools and at the same time a pipeline to easily execute tools and analyze environmental data. MetaMeta includes database generation, pre-processing, execution, and integration steps, allowing easy installation, visualization and parallelization of state-of-the-art tools. Using the same input data, MetaMeta provides more sensitive and reliable results with the presence of each identified organism being supported by several methods.
Those three projects introduce new methodologies and improved results over similar methods, constituting valuable contributions to characterize communities in a reference and taxonomy-based manner.
Metagenomik bietet die Möglichkeit, die große und noch weitgehend unbekannte Welt der Mikroben zu untersuchen. Diese machen mindestens die Hälfte der genetischen Vielfalt der Erde aus. Computergestützte Metagenomik ermöglicht diese Entdeckungen durch die Analyse von großen Datenmengen, die durch High-throughput-sequencing in einem schnellen Tempo generiert werden. Referenzbasierte Methoden werden üblicherweise verwendet, um Umweltproben basierend auf zuvor zusammengestellten Referenzsequenzen zu untersuchen, die oft mit einer taxonomischen Klassifikation verbunden sind. Den Ursprung jedes sequenzierten Fragments zu finden und die Umweltprobe als Gesamtes zu beschreiben ist das Hauptziel von Binningtools und taxonomischer Profilingtools.
In dieser Arbeit präsentiere ich drei Methoden der computergestützten Metagenomik. Kuratierter Referenzsequenzen und taxonomische Klassifikation werden zur Charakterisierung von Umweltproben verwendet. Das Hauptziel dieser Beiträge ist es, den Stand der Technik des taxonomischen Profiling und Binning mit schnellen, sensiblen und präzisen Methoden zu verbessern.
Zuerst stelle ich ganon vor, ein Tool zur Sequenzklassifizierung metagenomischer Daten, welches mit einer sehr großen Anzahl von Referenzsequenzen arbeitet. ganon bietet eine effiziente Methode zur Indexierung von Sequenzen und Aktualisierung dieser Indizes in sehr kurzer Zeit. Darüber hinaus führt ganon taxonomisches Binning mit stark verbesserter Genauigkeit im Vergleich zu den derzeit verfügbaren Methoden durch. Für ein generelles Profiling metagnomischer Daten und Bestandsschätzung stelle ich DUDes vor. Statt die in der Probe vorhanden Stämme nur basiert auf relativen Häufigkeiten vorherzusagen, identifiziert DUDes zuerst mögliche Kandidaten durch Vergleichen der Konfidenz der zugewiesenen Reads in jedem Knoten des Taxonomiebaumes auf eine iterative Top-Down-Weise. Diese Technik arbeitet in entgegengesetzter Richtung des kleinsten gemeinsamen Vorfahren-Ansatzes. Am Ende der Arbeit stelle ich MetaMeta vor, eine Pipeline zur Ausführung metagenomischer Analysetools und zur Integration ihrer Ergebnisse. MetaMeta ist gleichzeitig eine Methode zur Kombination und Verbesserung von Ergebnissen aus mehreren taxonomischen Binning- und Profiling-Tools, sowie eine Pipeline zum einfachen Ausführen von Tools und Analysieren von Umweltdaten. MetaMeta umfasst eine Datenbankgenerierung, Vorbereitungs-, Ausführungs- und Integrationsschritte, die eine einfache Installation, Visualisierung und Parallelisierung von Tools auf dem neuesten Stand der Technik ermöglichen. Mit den gleichen Eingabedaten liefert MetaMeta empfindlichere und zuverlässigere Ergebnisse, wobei das Vorhandensein jedes identifizierten Organismus' von mehreren Methoden unterstützt wird. Diese drei Projekte stellen neuen Methodiken und verbesserte Ergebnisse gegenüber ähnlichen Methoden vor und leisten einen wertvollen Beitrag zur Charakterisierung von Gemeinschaften auf Referenz- und Taxonomiebasierten Methoden.