Proteogenomics describes the integration of genomic, transcriptomic, and proteomic data. The combination of this multi-omics information offers unprecedented possibilities for more accurate and sample-specific gene and protein identification. Further, the advent of high-throughput technologies has led to a wealth of studies aiming at a deeper understanding of protein function and interaction. Hence, methods analyzing proteogenomic data, and particularly integrating various data types, are strongly demanded. In this thesis, we present new proteogenomic approaches for the integration of next- generation sequencing and mass spectrometry data in form of DNA and RNA-Seq and tandem mass spectra. These contributions can be divided into three main projects: First, we developed the method GIIRA (Gene Identification Incorporating RNA-Seq data and Ambiguous reads) for the construction of gene models and transcript prediction based on RNA-Seq data. GIIRA analyzes RNA-Seq mappings on prokaryotic and eu\\-ka\\-ryotic reference genomes in order to identify expressed genes on the reference. Unlike other RNA-Seq analysis methods, it does not exclude ambiguously mapping reads, but rather explicitly includes all mappings to perform a more comprehensive prediction. It first extracts candidate regions based on the complete RNA-Seq mapping and represents all connections of reads and candidates in a network. This network is optimized in a maximum-flow approach to resolve ambiguous mappings and identify the most likely origin of each read. The optimization is realized by an integer linear program formulation. In several experiments we show that GIIRA is well suited for RNA-Seq-based gene identification and improves the accuracy of existing methods. For instance, on an Escherichia coli data set GIIRA showed up to 15% improved identification accuracy in comparison to other prediction methods. The second main project builds on the output of GIIRA and post-processes gene prediction results in order to improve prediction accuracy. We developed IPred (Integrative gene Prediction), a computational approach that explicitly combines the results of ab initio gene finders and evidence-based methods. Ab initio approaches employ machine learning techniques and predict genes exclusively based on a given reference sequence. Hence, their results are accurate for standard gene structures, but they are not sample-specific. Thus, IPred provides an automated simplistic framework to integrate the results of varying evidence-based predictions to ab initio identifications. Thereby, it excludes false positives and allows support for sample-specific mutations. Predictions combined by IPred show improved accuracy in comparison to results from single method gene finders and other combination methods. In particular the specificity of single method results is increased by up to 30%. The third project extends the former two methods and combines RNA-Seq-based predictions with tandem mass spectrometry. We introduce MSProGene (Mass Spectrometry and RNA-Seq-based Protein and Gene Identification), a new proteogenomic method that performs protein identification beyond reference protein data\\-bases or six-frame translations. It constructs customized transcript databases (for instance using GIIRA or IPred) and analyzes peptide spectrum matches with the help of a network representation. In particular, MSProGene explicitly resolves shared peptides for protein inference using RNA-Seq information in a linear program optimization. Resulting peptide spectrum matches are controlled by an expectation-maximization-based false discovery rate. We performed an exhaustive comparison to reference dependent and independent proteogenomic approaches and demonstrate that MSProGene facilitates a reliable database independent prediction on gene and protein level and additionally identifies novel genes. For instance, on a Litomosoides sigmodontis data set it identified twenty times as many proteins verified by BLAST search than a standard six-frame analysis. With these projects we developed new methods for automated and accurate proteogenomic analysis. The introduced approaches successfully integrate genomic data with RNA-Seq and mass spectrometry experiments to enable a better understanding of protein function and interaction.
Das Feld der Proteogenomik verbindet genomische, transkriptomische, und proteomische Daten und ermöglicht so die Kombination von Genexpressionsinformationen für akkuratere und experimentspezifische Gen- und Proteinidentifikation. Zusätzlich hat auch die Entwicklung von Hochdurchsatzverfahren zu einer Vielzahl von Studien geführt, mit dem Ziel, ein besseres Verständnis von Proteinfunktion und -interaktion zu erlangen. Daher ist es sehr wichtig, automatisierte Methoden für die Analyse von proteogenomischen Daten, insbesondere der Integration von verschiedenen Datentypen, bereitzustellen. In dieser Doktorarbeit stellen wir proteogenomische Ansätze für die Integration von Daten aus der DNA- und RNA- Sequenzierung und der Tandemmassenspektrometrie vor. Die Beiträge der Arbeit können in drei Hauptprojekte unterteilt werden: Erstens, die Entwicklung der Methode GIIRA (Gene Identification Incorporating RNA-Seq data and Ambiguous reads) für die Erstellung von Genmodellen und die Vorhersage von Transkripten basierend auf RNA-Sequenzierung. Dazu analysiert GIIRA die auf prokaryotischen und eukaryotischen Referenzen alignierten RNA-Sequenzen um expremierte Gene auf der Referenz zu identifizieren. Im Gegensatz zu anderen Methoden zur Analyse von RNA-Sequenzierungsdaten entfernt GIIRA dabei nicht die mehrdeutig alignierten Sequenzen, sondern verwendet stattdessen explizit alle Alignments um eine umfassendere Vorhersage treffen zu können. Hierzu werden zunächst Kandidatenregionen extrahiert, basierend auf dem kompletten RNA-Alignment. Anschließend werden alle Verbindungen von RNA-Sequenzen und Kandidaten in einem Netzwerk repräsentiert. Dieses Netzwerk wird mit einem Maximum-Flow Algorithmus optimiert, um für jede mehrdeutige Alignierung die wahrscheinlichste Ursprungsposition zu bestimmen. Dabei basiert die Optimierung auf der Formulierung und Lösung eines Linearen Programms. Wir zeigen in verschiedenen Experimenten, dass GIIRA sehr gut zur Genidentifizierung basierend auf RNA-Sequenzierung geeignet ist und die Genauigkeit bestehender Methoden übertrifft. Beispielsweise zeigt GIIRA auf einem Escherichia coli Datensatz bis zu 15% höhere Vorhersagegenauigkeit als andere Genidentifizierungsmethoden. Das zweite Hauptprojekt baut auf den Ergebnissen von GIIRA auf und prozessiert Genvorhersagen, um deren Genauigkeit weiter zu verbessern. Dazu entwickelten wir IPred (Integrative gene Prediction), eine Methode, die explizit Resultate von ab initio Genidentifizierungsmethoden und evidenzbasierten Genidentifizierungsmethoden verbindet. Ab initio Ansätze benutzen Maschinelles Lernen um Gene direkt auf gegebenen Referenzsequenzen vorherzusagen. Damit sind sie akkurat für bekannte Genstrukturen, aber nicht experimentspezifisch. Daher bietet IPred eine automatisierte Methode um die Resultate von evidenzbasierten Identifizierungsmethoden mit ab initio Vorhersagen zu vereinen. Dabei entfernt die Methode falsche Identifikationen und erlaubt die Detektion von experimentspezifischen Mutationen. Die kombinierten Vorhersagen von IPred zeigen verbesserte Genauigkeit, sowohl im Vergleich zu Vorhersagen von einzelnen Genidentifizierungsmethoden als auch anderen Kombinationsmethoden. Insbesondere die Spezifität konnte um bis zu 30% verbessert werden. Das dritte Projekt erweitert die vorherigen zwei Methoden und kombiniert RNA- Sequenzierung mit Tandemmassenspektrometrie. Wir entwickelten die neue proteogenomische Methode MSProGene (Mass Spectrometry and RNA-Seq-based Protein and Gene Identification), welche Proteinidentifikation unabhängig von Referenzproteindatenbanken und six-frame Translationen durchführt. MSProGene generiert maßgeschneiderte Transkriptdatenbanken (zum Beispiel mit Hilfe von GIIRA und IPred) und analysiert Peptididentifikationen mit Hilfe einer Netzwerkdarstellung. Insbesondere integriert MSProGene dabei RNA- Sequenzierungsdaten um mit Hilfe einer linearen Optimierung mehrdeutig zugeordnete Peptide zum korrekten Protein zuzuordnen. Die resultierenden Peptididentifikationen unterliegen einer Qualitätskontrolle basierend auf einem Expectation-Maximization Algorithmus. In einem umfangreichen Vergleich zu referenzabhängigen und referenzunabhängigen, proteogenomischen Analysemethoden zeigen wir, dass MSProGene eine verlässliche datenbankunabhängige Identifikation von Genen und Proteinen ermöglicht und zusätzlich neue Gene detektiert. Beispielsweise identifiziert MSProGene auf einem Litomosoides sigmodontis Datensatz zwanzig mal so viele BLAST verifizierte Proteine wie eine standard six-frame Analyse. Mit diesen Projekten stellen wir neue Methoden für die automatisierte und akkurate proteogenomische Analyse bereit. Die vorgestellten Methoden integrieren erfolgreich genomische Daten mit RNA-Sequenzierungs- und Massenspektrometrie- experimenten und tragen so zu einem besseres Verständnis von Proteinfunktion und -interaktion bei.