dc.contributor.author
Kuhring, Mathias
dc.date.accessioned
2019-07-15T08:06:11Z
dc.date.available
2019-07-15T08:06:11Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/25057
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-2812
dc.description.abstract
Sequence data are the backbone for many biological research areas including but not limited to genomics, proteomics as well as proteogenomics. Sequence acquisition is facilitated by a wide selection of advanced technologies such as Next Generation Sequencing and Mass Spectrometry. These high-throughput methods produce substantial volumes of data with decreasing financial and time-based expenditures. These volumes of data render manual processing impossible and therefore require state-of-the-art computational methods for adequate analysis and interpretation. In proteogenomics the potential of combining omics methods to improve on sequence quality and availability is frequently emphasized, in particular for non-model organisms. In this thesis, we highlight and address several challenges in the “life cycle” of omics sequence data, from genome sequence acquisition through integrated evaluation to extensive utilization of comprehensive sequence collections.
We describe several methods with applications in different omics areas and emphasize means of potential integrative analysis. First, we introduce a method for \textit{de novo} assembly contig quality ranking based on machine learning. Thereby, we demonstrate special potential for the application on metagenomic sequence data which usually feature a variety of previously sequenced as well as unsequenced, non-model organisms. Next, we elaborate on sequence availability of target sequences in databases considered for taxonomic classification of tandem MS spectra. Thereby, the effect of different sequence sources as well as different search strategies on taxonomic depth is taken in account. Finally, we introduce a novel approach for extensive taxonomic classification by iteratively processing recent and comprehensive protein sequence databases. We discuss diverse possibilities as well as the limits of our methods with respect to current public data basis. Thereby, we illustrate potential benefits of the presented methods for non-model organisms.
en
dc.description.abstract
Sequenzdaten bilden das Rückrad für viele biologische Forschungsbereiche,
einschließlich (aber nicht beschränkt auf) Genomik, Proteomik sowie Proteogenomik.
Sequenzierung wird durch eine breite Auswahl an modernen Technologien ermöglicht, wie
beispielsweise Next-Generation-Sequenzierung und Massenspektrometrie. Diese
Hochdurchsatzverfahren erzeugen erhebliche Datenmengen mit immer geringerem
zeitlichen und finanziellen Aufwand. Die anfallenden Datenvolumina lassen manuelle
Aufbereitung nicht mehr zu und benötigen deshalb modernste rechnerische Methoden für eine adäquate Analyse und Interpretation. In der Proteogenomik wird das Potential die verschiedene Omik-Technologien zu kombinieren häufig betont, insbesondere für Non-Model-Organismen.
In dieser Dissertation möchten wir einige Herausforderungen im „Lebenszyklus“ der
Sequenzdaten hervorheben und uns eingehender mit ihnen befassen, von
Genomsequenzierung über integrative Evaluierung zu extensiver Anwendung umfangreicher Sequenzdatenbanken.
Wir beschreiben einige Methoden mit ihrer Anwendung in unterschiedlichen Omik-Gebieten
und betrachten zusätzlich die Möglichkeiten einer potentiell integrativen
Analyse. Zunächst stellen wir eine Methode für das Ranking von \textit{de novo} assemblierten Contigs basierend auf maschinellem Lernen vor. Dabei heben wir das besondere Potential für die Anwendung auf metagenomische Sequenzdaten hervor, welche für gewöhnlich ein große Vielfalt
an zuvor sequenzierten als auch unsequenzierten Non-Model-Organismen aufweisen.
Des Weiteren untersuchen wir den Einfluss von Sequenz-Verfügbarkeit in angewendeten Datenbanken in Bezug auf taxonomischem Klassifizierungspotential von Tandem-MS-Spektren. Dabei analysieren wir die Effekte verschiedener Sequenzquellen und Such-Strategien auf die taxonomische Tiefe.
Abschließend stellen wir einen neuen Ansatz für eine extensive taxonomische Klassifizierung durch iterativer Aufarbeitung möglichst aktueller und umfangreicher Protein-Sequenz-Datenbanken. Wir diskutieren Potential und Grenzen unserer Methoden mit Hinblick auf aktuelle Sequenzdaten-Verfügbarkeit. Dabei zeigen wir potentiellen Nutzen für Non-Model Organismen auf.
de
dc.format.extent
v, 93 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Bioinformatics
en
dc.subject
Non-model organism
en
dc.subject
Next generation sequencing
en
dc.subject
Mass spectrometry
en
dc.subject
Sequence data
en
dc.subject
Proteogenomics
en
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::000 Informatik, Informationswissenschaft, allgemeine Werke
dc.subject.ddc
500 Naturwissenschaften und Mathematik::500 Naturwissenschaften::500 Naturwissenschaften und Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Computational Methods for Omics Sequence Data with Focus on Non-Model Organisms
dc.contributor.gender
male
dc.contributor.firstReferee
Renard, Bernhard Y.
dc.contributor.furtherReferee
Otto, Thomas D.
dc.date.accepted
2019-02-13
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-25057-7
refubium.affiliation
Mathematik und Informatik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access