Metagenomics allows analyzing genomic material taken directly from the environment. In contrast to classical genomics, no purification of single organisms is performed and therefore the extracted genomic material reflects the composition of the original microbial community. The possible applications of metagenomics are manifold and the field has become increasingly popular due to the recent improvements in sequencing technologies. One of the most fundamental challenges in metagenomics is the identification and quantification of organisms in a sample, called taxonomic profiling. In this work, we present approaches to the following current problems in taxonomic profiling: First, differentiation between closely related organisms in metagenomic samples is still challenging. Second, the identification of novel organisms in metagenomic samples poses problems to current taxonomic profiling methods, especially when there is no suitable reference genome available. The contribution of this thesis comprises three major projects. First, we introduce the Genome Abundance Similarity Correction (GASiC) algorithm, a method that allows differentiating between and quantifying highly similar microbial organisms in a metagenomic sample. The method first estimates the similarities between the available reference genomes with a simulation approach. Based on the similarities, GASiC corrects the observed abundances of each reference genome using a non-negative lasso approach. In several experiments we showed that the abundance estimates are highly accurate and reduce the error compared to current approaches by 5% to 60%. The approach was also successfully applied to metaproteomics. In the second project, we developed a statistical framework to fit mixtures of discrete distribution functions to the histograms of sequencing coverage depth after mapping metagenomic reads to reference genomes. We tailored a family of distributions for this particular application and modified the expectation-maximization algorithm to also fit discrete distributions when maximum likelihood estimation of the distribution parameters is not directly possible. The most important application of our framework is the genome validity score that measures how suitable a reference genome is for a particular (metagenomic) dataset. In the third project, we developed a taxonomic profiling tool, called MicrobeGPS. In contrast to previous approaches, MicrobeGPS identifies and characterizes organisms in a metagenome even if there are no suitable reference genomes available. Distances to existing reference genomes are measured with the genome validity score and allow the user to spot organisms for which the available reference genomes are insufficient. We demonstrated on gold standard and real metagenomic data that our approach is more accurate than other existing methods, provides more meaningful results, and handles complex microbial communities. Taken together, these three projects enhance the current repertoire of computational methods for taxonomic profiling and enable the simultaneous quantification of highly related organisms and the identification and characterization of unknown organisms in complex metagenomic datasets.
Die Metagenomik untersucht mit Hilfe molekularbiologischer Methoden die Gesamtheit der genetischen Information einer Biozönose. Im Gegensatz zur klassischen Genomik werden hier die einzelnenen Mikroorganismen in der Probe nicht aufgereinigt oder angezüchtet, sodass das aus einer Probe extrahierte Genmaterial die Zusammensetzung der ursprünglichen Biozönose widerspiegelt. Aufgrund der technischen Fortschritte der letzten Jahre in der Genomsequenzierung hat sich das Anwendungsspektrum der Metagenomik zunehmend verbreitert. Eine der grundlegendsten Aufgaben der Metagenomik ist jedoch weiterhin das sogenannte Taxonomic Profiling, die Bestimmung und Quantifizierung aller Mikroorganismen in einer Probe. In dieser Arbeit werden Ansätze zur Lösung folgender im Zusammenhang mit Taxonomic Profiling auftretender Probleme vorgestellt: Zum einen ist die gleichzeitige Bestimmung und zahlenmäßige Erfassung - und damit auch die Unterscheidung - sehr nah verwandter Organismen in metagenomischen Proben bisher sehr ungenau. Zum anderen stellt die Bestimmung unbekannter Organismen in metagenomischen Proben die gängigen Taxonomic Profiling-Ansätze vor große Probleme, insbesondere wenn keine vergleichbaren Genome nah verwandter Organismen bekannt sind. Der wissenschaftliche Beitrag dieser Arbeit umfasst im Wesentlichen drei Projekte. Im ersten Projekt wird der GASiC-Algorithmus (Genome Abundance Similarity Correction) vorgestellt, der es ermöglicht zwischen sehr nah verwandten Organismen in derselben Probe zu unterscheiden und deren relative Häufigkeit zu bestimmen. Im ersten Schritt berechnet die Methode die Ähnlichkeiten zwischen den Genomsequenzen bekannter, nah verwandter Organismen über einen Simulationsansatz. Mithilfe der Ähnlichkeiten korrigiert GASiC die in der Probe beobachteten Häufigkeiten der bekannten Genomsequenzen über ein nicht- negatives LASSO. In Experimenten konnte gezeigt werden, dass die korrigierten Häufigkeiten den realen Häufigkeiten sehr gut entsprechen und um 5-60% geringeren Fehler aufweisen als bisherige Ansätze. Weiterhin konnte gezeigt werden, dass sich der Ansatz auch auf Probleme der Metaproteomik übertragen lässt. Für das zweite Projekt wurden statistische Werkzeuge entwickelt, die es erlauben, komplexe Mischungen diskreter Wahrscheinlichkeitsverteilungen an Sequenziertiefe-Histogramme anzupassen, die bei der Zuordnung im Sequenzierprozess erzeugter Genomfragmente zu bekannten Genomsequenzen entstehen. Zu diesem Zweck wurden mehrere Verteilungsfunktionen entwickelt und zusammengestellt und eine Abwandlung des Expectation-Maximization-Algorithmus vorgestellt, die es erlaubt Verteilungen anzupassen auch wenn keine Maximum- Likelihood-Schätzung der Verteilungsparameter möglich ist. Die wichtigste Anwendung stellt das sogenannte Genome Validity-Maß dar, welches die Ähnlichkeit einer bekannten Genomsequenz zu dem in einer (metagenomischen) Probe enthaltenen Genmaterial misst. Als dritter Beitrag wurde das Taxonomic Profiling-Programm MicrobeGPS entwickelt. Im Gegensatz zu bestehenden Ansätzen bestimmt und charakterisiert MicrobeGPS die Organismen in einer Probe, ohne die Genomsequenzen der Organismen im Voraus kennen zu müssen. Die Abstände der Organismen zu bekannten Genomsequenzen werden über das Genome Validity-Maß geschätzt und ermöglichen damit dem Benutzer Organismen zu erkennen und einzuordnen, für die es unter den bekannten Genomsequenzen keine Entsprechung gibt. Auf Daten mit Goldstandard und Realdaten konnte gezeigt werden, dass der vorgestellte Ansatz genauere Ergebnisse liefert als bestehende Methoden. Weiterhin sind die Ergebnisse von MicrobeGPS insbesondere bei sehr komplexen Biozönosen im Vergleich zu anderen Methoden aussagekräftiger und leichter zu deuten. Zusammengenommen erweitern diese drei Beiträge den Umfang der bestehenden computergestützten Taxonomic Profiling-Methoden, indem sie es ermöglichen sehr ähnliche Organismen in einer Probe gleichzeitig zu erfassen und bisher unbekannte Organismen zu bestimmen und zu charakterisieren.