Sequence data are the backbone for many biological research areas including but not limited to genomics, proteomics as well as proteogenomics. Sequence acquisition is facilitated by a wide selection of advanced technologies such as Next Generation Sequencing and Mass Spectrometry. These high-throughput methods produce substantial volumes of data with decreasing financial and time-based expenditures. These volumes of data render manual processing impossible and therefore require state-of-the-art computational methods for adequate analysis and interpretation. In proteogenomics the potential of combining omics methods to improve on sequence quality and availability is frequently emphasized, in particular for non-model organisms. In this thesis, we highlight and address several challenges in the “life cycle” of omics sequence data, from genome sequence acquisition through integrated evaluation to extensive utilization of comprehensive sequence collections.
We describe several methods with applications in different omics areas and emphasize means of potential integrative analysis. First, we introduce a method for \textit{de novo} assembly contig quality ranking based on machine learning. Thereby, we demonstrate special potential for the application on metagenomic sequence data which usually feature a variety of previously sequenced as well as unsequenced, non-model organisms. Next, we elaborate on sequence availability of target sequences in databases considered for taxonomic classification of tandem MS spectra. Thereby, the effect of different sequence sources as well as different search strategies on taxonomic depth is taken in account. Finally, we introduce a novel approach for extensive taxonomic classification by iteratively processing recent and comprehensive protein sequence databases. We discuss diverse possibilities as well as the limits of our methods with respect to current public data basis. Thereby, we illustrate potential benefits of the presented methods for non-model organisms.
Sequenzdaten bilden das Rückrad für viele biologische Forschungsbereiche, einschließlich (aber nicht beschränkt auf) Genomik, Proteomik sowie Proteogenomik. Sequenzierung wird durch eine breite Auswahl an modernen Technologien ermöglicht, wie beispielsweise Next-Generation-Sequenzierung und Massenspektrometrie. Diese Hochdurchsatzverfahren erzeugen erhebliche Datenmengen mit immer geringerem zeitlichen und finanziellen Aufwand. Die anfallenden Datenvolumina lassen manuelle Aufbereitung nicht mehr zu und benötigen deshalb modernste rechnerische Methoden für eine adäquate Analyse und Interpretation. In der Proteogenomik wird das Potential die verschiedene Omik-Technologien zu kombinieren häufig betont, insbesondere für Non-Model-Organismen. In dieser Dissertation möchten wir einige Herausforderungen im „Lebenszyklus“ der Sequenzdaten hervorheben und uns eingehender mit ihnen befassen, von Genomsequenzierung über integrative Evaluierung zu extensiver Anwendung umfangreicher Sequenzdatenbanken.
Wir beschreiben einige Methoden mit ihrer Anwendung in unterschiedlichen Omik-Gebieten und betrachten zusätzlich die Möglichkeiten einer potentiell integrativen Analyse. Zunächst stellen wir eine Methode für das Ranking von \textit{de novo} assemblierten Contigs basierend auf maschinellem Lernen vor. Dabei heben wir das besondere Potential für die Anwendung auf metagenomische Sequenzdaten hervor, welche für gewöhnlich ein große Vielfalt an zuvor sequenzierten als auch unsequenzierten Non-Model-Organismen aufweisen. Des Weiteren untersuchen wir den Einfluss von Sequenz-Verfügbarkeit in angewendeten Datenbanken in Bezug auf taxonomischem Klassifizierungspotential von Tandem-MS-Spektren. Dabei analysieren wir die Effekte verschiedener Sequenzquellen und Such-Strategien auf die taxonomische Tiefe. Abschließend stellen wir einen neuen Ansatz für eine extensive taxonomische Klassifizierung durch iterativer Aufarbeitung möglichst aktueller und umfangreicher Protein-Sequenz-Datenbanken. Wir diskutieren Potential und Grenzen unserer Methoden mit Hinblick auf aktuelle Sequenzdaten-Verfügbarkeit. Dabei zeigen wir potentiellen Nutzen für Non-Model Organismen auf.