dc.contributor.author
Dadi, Temesgen Hailemariam
dc.date.accessioned
2019-05-03T07:25:39Z
dc.date.available
2019-05-03T07:25:39Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/24522
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-2286
dc.description.abstract
Mikroorganismen, typischerweise in Form von großen Gemeinschaften aus einer Vielzahl von Spezies, sind ein allgegenwärtiger Bestandteil unserer Umwelt. Solche Gemeinschaften sind ein wesentlicher Bestandteil ihrer Umgebung und beeinflussen diese auf verschiedenen Ebenen. Besonders Wirt-assoziierte Mikroben werden wegen ihres Einflusses auf die menschliche Gesundheit intensiv untersucht. Darüber hinaus entwickelt sich ein wachsendes Interesse an mikrobiellen Gemeinschaften wegen ihrer Rolle in der Landwirtschaft, Abfalltechnik, im Bergbau und in der Biotechnologie. Metagenomik ist ein vergleichsweise neues wissenschaftliches Feld, welches mikrobielle Gemeinschaften auf der Basis von genetischem Material aus einer definierten Umgebung untersucht. Technische Fortschritte bei der DNA Sequenzierung haben es möglich gemacht, auf diese Weise taxonomisches Profiling durchzuführen, d.h. die mikrobiellen Spezies qualitativ und quantitativ zu erfassen.
Bei der ``whole genome shotgun sequencing (WGS)'' Methode wird die DNA aus der Probe direkt fragmentiert und sequenziert. Taxonomische Profiling-Methoden, welche auf diesem Verfahren beruhen, sind weniger anfällig für PCR Biase im Vergleich zu anderen Methoden, wie z.B. 16S-rDNA basierten Verfahren. Allerdings stellt hierbei die enorme Größe und Redundanz der Datenbanken sowie der hohe Grad an Homologie unter den in den Datenbanken erfassten Organismen einen Nachteil dar. In dieser Arbeit stellen wir zwei rechnergestützte Verfahren vor, die beide Probleme adressieren.
Die erste Methode ist ein taxonomischer Profiler, mit dem Ziel, die Mehrfachzuweisungen von Reads zu Referenzsequenzen homologer Spezies auf der Basis der unterschiedlichen Abdeckungsprofile zu korrigieren. Durch die sorgfältige Auswertung der Read-Abdeckungen werden hierbei falsch positive Referenzgenome von der Auswahl entfernt. Durch diese Filterstrategie erhöht sich die Genauigkeit und Auflösung des Verfahrens, da ein größerer Teil der Reads eindeutig einem Genom zugeordnet werden kann. Wir zeigen darüberhinaus, dass durch die Methode auch die Häufigkeiten der Organismen präziser bestimmt werden können.
Die zweite Methode ist ein verteilter Read-Mapper, welcher das Problem der großen und sich häufig ändernden Referenzdatenbanken in der Metagenomik dadurch adressiert, dass die Referenzdatenbanken systematisch in Partitionen unterteilt werden. Hierdurch kann der Bedarf an Rechenzeit und Speicher für die Berechnung von Indizes um Größenordnungen verringert und Index Aktualisierungen in wenigen Minuten anstelle von Tagen durchgeführt werden. Um trotz der hohen Zahl von kleinen Indizes eine hohe Performanz beim alignieren der Reads zu erreichen, haben wir eine neue, schnelle und kompakte Filter-Datenstruktur entwickelt, den interleaved bloom filter. Dadurch sind wir in der Lage, die beschriebenen Verbesserungen beim Erzeugen und Aktualisieren der Indizes ohne Einbußen bei der Mapping-Geschwindigkeit zu erreichen.
de
dc.description.abstract
Microorganisms, typically occurring as large, species diverse communities, are a ubiquitous part of nature. These communities are a vital part of their environment, influencing it through various layers of interaction. Host-associated microbial communities are particularly scrutinized for their influence on the host’s health. Additionally, there is a growing interest in microbial communities due to their role in livestock, agriculture, waste treatment, mining, and biotechnology. Metagenomics is a relatively young scientific field that aims to study such microbial communities based on genetic material recovered directly from an environment. Advances in DNA sequencing have enabled us to perform taxonomic profiling, i.e. to identify microbial species quantitatively and qualitatively at increasing depth.
In whole genome shotgun sequencing (WGS), environmental DNA is taken directly from an environment and sequenced after being fragmented, without PCR amplification. Taxonomic profiling methods based on such sequencing data introduce less PCR bias compared to their amplicon based counterparts such as 16S-rDNA based profiling methods. However, the challenges posed by the enormous and redundancy of databases and the high degree homology among reference genomes of microorganisms put WGS methods at a disadvantage. In this thesis, we will present and discuss two separate computational methods that address both challenges.
The first method is a taxonomic profiler that leverages coverage landscapes created by mapping sequencing reads across reference genomes to address the challenge posed by homologous regions of genomes. By carefully evaluating the coverage profile of reference genomes we drop spurious references from consideration. This filtration strategy results in more uniquely mapping reads to the remaining reference genomes improving both the resolution and accuracy of the taxonomic profiling process. We have also shown that this method improves the quality of relative abundances assigned to each detected member organism.
The second method is a distributed read mapper which addresses the issue of large and frequently changing databases by systematically partitioning it into smaller bins. It significantly reduces the time, and computational resources required to build indices from such large databases by orders of magnitudes and updates can be performed very quickly in a few minutes compared to days in earlier methods. To achieve a competitive mapping speed while maintaining many small indices, we implemented a novel, fast and lightweight filtering data structure called interleaved bloom filter. With that, we are able to achieve the described improvements in the index building and updating time without compromising the read-mapping speed.
en
dc.format.extent
8, 145 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Taxonomic Profiling
en
dc.subject
Metagenomics
en
dc.subject
Microbial Communities
en
dc.subject
Distributed Read mapping
en
dc.subject
Next Generation Sequencing
en
dc.subject
Distributed Read mapping
en
dc.subject
Read Mapping
en
dc.subject.ddc
000 Computer science, information, and general works::000 Computer Science, knowledge, systems::006 Special computer methods
dc.subject.ddc
000 Computer science, information, and general works::000 Computer Science, knowledge, systems::004 Data processing and Computer science
dc.subject.ddc
500 Natural sciences and mathematics::570 Life sciences::576 Genetics and evolution
dc.subject.ddc
500 Natural sciences and mathematics::570 Life sciences::579 Microorganisms, fungi, algae
dc.title
Whole Genome Shotgun Sequencing Based Taxonomic Profiling Methods for Comparative Study of Microbial Communities
dc.contributor.gender
male
dc.contributor.firstReferee
Reinert, Knut
dc.contributor.furtherReferee
Huson, Daniel
dc.date.accepted
2019-04-29
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-24522-0
refubium.affiliation
Mathematik und Informatik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access
dcterms.accessRights.proquest
accept