dc.contributor.author
Lindner, Martin Michael Serenus
dc.date.accessioned
2018-06-07T18:56:16Z
dc.date.available
2015-02-09T14:15:09.632Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/5591
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-9790
dc.description.abstract
Metagenomics allows analyzing genomic material taken directly from the
environment. In contrast to classical genomics, no purification of single
organisms is performed and therefore the extracted genomic material reflects
the composition of the original microbial community. The possible applications
of metagenomics are manifold and the field has become increasingly popular due
to the recent improvements in sequencing technologies. One of the most
fundamental challenges in metagenomics is the identification and
quantification of organisms in a sample, called taxonomic profiling. In this
work, we present approaches to the following current problems in taxonomic
profiling: First, differentiation between closely related organisms in
metagenomic samples is still challenging. Second, the identification of novel
organisms in metagenomic samples poses problems to current taxonomic profiling
methods, especially when there is no suitable reference genome available. The
contribution of this thesis comprises three major projects. First, we
introduce the Genome Abundance Similarity Correction (GASiC) algorithm, a
method that allows differentiating between and quantifying highly similar
microbial organisms in a metagenomic sample. The method first estimates the
similarities between the available reference genomes with a simulation
approach. Based on the similarities, GASiC corrects the observed abundances of
each reference genome using a non-negative lasso approach. In several
experiments we showed that the abundance estimates are highly accurate and
reduce the error compared to current approaches by 5% to 60%. The approach was
also successfully applied to metaproteomics. In the second project, we
developed a statistical framework to fit mixtures of discrete distribution
functions to the histograms of sequencing coverage depth after mapping
metagenomic reads to reference genomes. We tailored a family of distributions
for this particular application and modified the expectation-maximization
algorithm to also fit discrete distributions when maximum likelihood
estimation of the distribution parameters is not directly possible. The most
important application of our framework is the genome validity score that
measures how suitable a reference genome is for a particular (metagenomic)
dataset. In the third project, we developed a taxonomic profiling tool, called
MicrobeGPS. In contrast to previous approaches, MicrobeGPS identifies and
characterizes organisms in a metagenome even if there are no suitable
reference genomes available. Distances to existing reference genomes are
measured with the genome validity score and allow the user to spot organisms
for which the available reference genomes are insufficient. We demonstrated on
gold standard and real metagenomic data that our approach is more accurate
than other existing methods, provides more meaningful results, and handles
complex microbial communities. Taken together, these three projects enhance
the current repertoire of computational methods for taxonomic profiling and
enable the simultaneous quantification of highly related organisms and the
identification and characterization of unknown organisms in complex
metagenomic datasets.
de
dc.description.abstract
Die Metagenomik untersucht mit Hilfe molekularbiologischer Methoden die
Gesamtheit der genetischen Information einer Biozönose. Im Gegensatz zur
klassischen Genomik werden hier die einzelnenen Mikroorganismen in der Probe
nicht aufgereinigt oder angezüchtet, sodass das aus einer Probe extrahierte
Genmaterial die Zusammensetzung der ursprünglichen Biozönose widerspiegelt.
Aufgrund der technischen Fortschritte der letzten Jahre in der
Genomsequenzierung hat sich das Anwendungsspektrum der Metagenomik zunehmend
verbreitert. Eine der grundlegendsten Aufgaben der Metagenomik ist jedoch
weiterhin das sogenannte Taxonomic Profiling, die Bestimmung und
Quantifizierung aller Mikroorganismen in einer Probe. In dieser Arbeit werden
Ansätze zur Lösung folgender im Zusammenhang mit Taxonomic Profiling
auftretender Probleme vorgestellt: Zum einen ist die gleichzeitige Bestimmung
und zahlenmäßige Erfassung - und damit auch die Unterscheidung - sehr nah
verwandter Organismen in metagenomischen Proben bisher sehr ungenau. Zum
anderen stellt die Bestimmung unbekannter Organismen in metagenomischen Proben
die gängigen Taxonomic Profiling-Ansätze vor große Probleme, insbesondere wenn
keine vergleichbaren Genome nah verwandter Organismen bekannt sind. Der
wissenschaftliche Beitrag dieser Arbeit umfasst im Wesentlichen drei Projekte.
Im ersten Projekt wird der GASiC-Algorithmus (Genome Abundance Similarity
Correction) vorgestellt, der es ermöglicht zwischen sehr nah verwandten
Organismen in derselben Probe zu unterscheiden und deren relative Häufigkeit
zu bestimmen. Im ersten Schritt berechnet die Methode die Ähnlichkeiten
zwischen den Genomsequenzen bekannter, nah verwandter Organismen über einen
Simulationsansatz. Mithilfe der Ähnlichkeiten korrigiert GASiC die in der
Probe beobachteten Häufigkeiten der bekannten Genomsequenzen über ein nicht-
negatives LASSO. In Experimenten konnte gezeigt werden, dass die korrigierten
Häufigkeiten den realen Häufigkeiten sehr gut entsprechen und um 5-60%
geringeren Fehler aufweisen als bisherige Ansätze. Weiterhin konnte gezeigt
werden, dass sich der Ansatz auch auf Probleme der Metaproteomik übertragen
lässt. Für das zweite Projekt wurden statistische Werkzeuge entwickelt, die es
erlauben, komplexe Mischungen diskreter Wahrscheinlichkeitsverteilungen an
Sequenziertiefe-Histogramme anzupassen, die bei der Zuordnung im
Sequenzierprozess erzeugter Genomfragmente zu bekannten Genomsequenzen
entstehen. Zu diesem Zweck wurden mehrere Verteilungsfunktionen entwickelt und
zusammengestellt und eine Abwandlung des Expectation-Maximization-Algorithmus
vorgestellt, die es erlaubt Verteilungen anzupassen auch wenn keine Maximum-
Likelihood-Schätzung der Verteilungsparameter möglich ist. Die wichtigste
Anwendung stellt das sogenannte Genome Validity-Maß dar, welches die
Ähnlichkeit einer bekannten Genomsequenz zu dem in einer (metagenomischen)
Probe enthaltenen Genmaterial misst. Als dritter Beitrag wurde das Taxonomic
Profiling-Programm MicrobeGPS entwickelt. Im Gegensatz zu bestehenden Ansätzen
bestimmt und charakterisiert MicrobeGPS die Organismen in einer Probe, ohne
die Genomsequenzen der Organismen im Voraus kennen zu müssen. Die Abstände der
Organismen zu bekannten Genomsequenzen werden über das Genome Validity-Maß
geschätzt und ermöglichen damit dem Benutzer Organismen zu erkennen und
einzuordnen, für die es unter den bekannten Genomsequenzen keine Entsprechung
gibt. Auf Daten mit Goldstandard und Realdaten konnte gezeigt werden, dass der
vorgestellte Ansatz genauere Ergebnisse liefert als bestehende Methoden.
Weiterhin sind die Ergebnisse von MicrobeGPS insbesondere bei sehr komplexen
Biozönosen im Vergleich zu anderen Methoden aussagekräftiger und leichter zu
deuten. Zusammengenommen erweitern diese drei Beiträge den Umfang der
bestehenden computergestützten Taxonomic Profiling-Methoden, indem sie es
ermöglichen sehr ähnliche Organismen in einer Probe gleichzeitig zu erfassen
und bisher unbekannte Organismen zu bestimmen und zu charakterisieren.
de
dc.format.extent
IX, 113 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
bioinformatics
dc.subject
taxonomic profiling
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Computational methods for the identification and quantification of microbial
organisms in metagenomes
dc.contributor.firstReferee
PD Dr. Bernhard Renard
dc.contributor.furtherReferee
Jun.-Prof. Dr. Tobias Marschall
dc.date.accepted
2014-10-15
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000098395-2
dc.title.translated
Computergestützte Methoden zur Bestimmung und Quantifizierung von
Mikroorganismen in Metagenomen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000098395
refubium.mycore.derivateId
FUDISS_derivate_000000016553
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access