dc.contributor.author
Zickmann, Franziska
dc.date.accessioned
2018-06-07T19:02:15Z
dc.date.available
2015-08-25T11:21:49.078Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/5689
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-9888
dc.description.abstract
Proteogenomics describes the integration of genomic, transcriptomic, and
proteomic data. The combination of this multi-omics information offers
unprecedented possibilities for more accurate and sample-specific gene and
protein identification. Further, the advent of high-throughput technologies
has led to a wealth of studies aiming at a deeper understanding of protein
function and interaction. Hence, methods analyzing proteogenomic data, and
particularly integrating various data types, are strongly demanded. In this
thesis, we present new proteogenomic approaches for the integration of next-
generation sequencing and mass spectrometry data in form of DNA and RNA-Seq
and tandem mass spectra. These contributions can be divided into three main
projects: First, we developed the method GIIRA (Gene Identification
Incorporating RNA-Seq data and Ambiguous reads) for the construction of gene
models and transcript prediction based on RNA-Seq data. GIIRA analyzes RNA-Seq
mappings on prokaryotic and eu\\-ka\\-ryotic reference genomes in order to
identify expressed genes on the reference. Unlike other RNA-Seq analysis
methods, it does not exclude ambiguously mapping reads, but rather explicitly
includes all mappings to perform a more comprehensive prediction. It first
extracts candidate regions based on the complete RNA-Seq mapping and
represents all connections of reads and candidates in a network. This network
is optimized in a maximum-flow approach to resolve ambiguous mappings and
identify the most likely origin of each read. The optimization is realized by
an integer linear program formulation. In several experiments we show that
GIIRA is well suited for RNA-Seq-based gene identification and improves the
accuracy of existing methods. For instance, on an Escherichia coli data set
GIIRA showed up to 15% improved identification accuracy in comparison to other
prediction methods. The second main project builds on the output of GIIRA and
post-processes gene prediction results in order to improve prediction
accuracy. We developed IPred (Integrative gene Prediction), a computational
approach that explicitly combines the results of ab initio gene finders and
evidence-based methods. Ab initio approaches employ machine learning
techniques and predict genes exclusively based on a given reference sequence.
Hence, their results are accurate for standard gene structures, but they are
not sample-specific. Thus, IPred provides an automated simplistic framework to
integrate the results of varying evidence-based predictions to ab initio
identifications. Thereby, it excludes false positives and allows support for
sample-specific mutations. Predictions combined by IPred show improved
accuracy in comparison to results from single method gene finders and other
combination methods. In particular the specificity of single method results is
increased by up to 30%. The third project extends the former two methods and
combines RNA-Seq-based predictions with tandem mass spectrometry. We introduce
MSProGene (Mass Spectrometry and RNA-Seq-based Protein and Gene
Identification), a new proteogenomic method that performs protein
identification beyond reference protein data\\-bases or six-frame
translations. It constructs customized transcript databases (for instance
using GIIRA or IPred) and analyzes peptide spectrum matches with the help of a
network representation. In particular, MSProGene explicitly resolves shared
peptides for protein inference using RNA-Seq information in a linear program
optimization. Resulting peptide spectrum matches are controlled by an
expectation-maximization-based false discovery rate. We performed an
exhaustive comparison to reference dependent and independent proteogenomic
approaches and demonstrate that MSProGene facilitates a reliable database
independent prediction on gene and protein level and additionally identifies
novel genes. For instance, on a Litomosoides sigmodontis data set it
identified twenty times as many proteins verified by BLAST search than a
standard six-frame analysis. With these projects we developed new methods for
automated and accurate proteogenomic analysis. The introduced approaches
successfully integrate genomic data with RNA-Seq and mass spectrometry
experiments to enable a better understanding of protein function and
interaction.
de
dc.description.abstract
Das Feld der Proteogenomik verbindet genomische, transkriptomische, und
proteomische Daten und ermöglicht so die Kombination von
Genexpressionsinformationen für akkuratere und experimentspezifische Gen- und
Proteinidentifikation. Zusätzlich hat auch die Entwicklung von
Hochdurchsatzverfahren zu einer Vielzahl von Studien geführt, mit dem Ziel,
ein besseres Verständnis von Proteinfunktion und -interaktion zu erlangen.
Daher ist es sehr wichtig, automatisierte Methoden für die Analyse von
proteogenomischen Daten, insbesondere der Integration von verschiedenen
Datentypen, bereitzustellen. In dieser Doktorarbeit stellen wir
proteogenomische Ansätze für die Integration von Daten aus der DNA- und RNA-
Sequenzierung und der Tandemmassenspektrometrie vor. Die Beiträge der Arbeit
können in drei Hauptprojekte unterteilt werden: Erstens, die Entwicklung der
Methode GIIRA (Gene Identification Incorporating RNA-Seq data and Ambiguous
reads) für die Erstellung von Genmodellen und die Vorhersage von Transkripten
basierend auf RNA-Sequenzierung. Dazu analysiert GIIRA die auf prokaryotischen
und eukaryotischen Referenzen alignierten RNA-Sequenzen um expremierte Gene
auf der Referenz zu identifizieren. Im Gegensatz zu anderen Methoden zur
Analyse von RNA-Sequenzierungsdaten entfernt GIIRA dabei nicht die mehrdeutig
alignierten Sequenzen, sondern verwendet stattdessen explizit alle Alignments
um eine umfassendere Vorhersage treffen zu können. Hierzu werden zunächst
Kandidatenregionen extrahiert, basierend auf dem kompletten RNA-Alignment.
Anschließend werden alle Verbindungen von RNA-Sequenzen und Kandidaten in
einem Netzwerk repräsentiert. Dieses Netzwerk wird mit einem Maximum-Flow
Algorithmus optimiert, um für jede mehrdeutige Alignierung die
wahrscheinlichste Ursprungsposition zu bestimmen. Dabei basiert die
Optimierung auf der Formulierung und Lösung eines Linearen Programms. Wir
zeigen in verschiedenen Experimenten, dass GIIRA sehr gut zur
Genidentifizierung basierend auf RNA-Sequenzierung geeignet ist und die
Genauigkeit bestehender Methoden übertrifft. Beispielsweise zeigt GIIRA auf
einem Escherichia coli Datensatz bis zu 15% höhere Vorhersagegenauigkeit als
andere Genidentifizierungsmethoden. Das zweite Hauptprojekt baut auf den
Ergebnissen von GIIRA auf und prozessiert Genvorhersagen, um deren Genauigkeit
weiter zu verbessern. Dazu entwickelten wir IPred (Integrative gene
Prediction), eine Methode, die explizit Resultate von ab initio
Genidentifizierungsmethoden und evidenzbasierten Genidentifizierungsmethoden
verbindet. Ab initio Ansätze benutzen Maschinelles Lernen um Gene direkt auf
gegebenen Referenzsequenzen vorherzusagen. Damit sind sie akkurat für bekannte
Genstrukturen, aber nicht experimentspezifisch. Daher bietet IPred eine
automatisierte Methode um die Resultate von evidenzbasierten
Identifizierungsmethoden mit ab initio Vorhersagen zu vereinen. Dabei entfernt
die Methode falsche Identifikationen und erlaubt die Detektion von
experimentspezifischen Mutationen. Die kombinierten Vorhersagen von IPred
zeigen verbesserte Genauigkeit, sowohl im Vergleich zu Vorhersagen von
einzelnen Genidentifizierungsmethoden als auch anderen Kombinationsmethoden.
Insbesondere die Spezifität konnte um bis zu 30% verbessert werden. Das dritte
Projekt erweitert die vorherigen zwei Methoden und kombiniert RNA-
Sequenzierung mit Tandemmassenspektrometrie. Wir entwickelten die neue
proteogenomische Methode MSProGene (Mass Spectrometry and RNA-Seq-based
Protein and Gene Identification), welche Proteinidentifikation unabhängig von
Referenzproteindatenbanken und six-frame Translationen durchführt. MSProGene
generiert maßgeschneiderte Transkriptdatenbanken (zum Beispiel mit Hilfe von
GIIRA und IPred) und analysiert Peptididentifikationen mit Hilfe einer
Netzwerkdarstellung. Insbesondere integriert MSProGene dabei RNA-
Sequenzierungsdaten um mit Hilfe einer linearen Optimierung mehrdeutig
zugeordnete Peptide zum korrekten Protein zuzuordnen. Die resultierenden
Peptididentifikationen unterliegen einer Qualitätskontrolle basierend auf
einem Expectation-Maximization Algorithmus. In einem umfangreichen Vergleich
zu referenzabhängigen und referenzunabhängigen, proteogenomischen
Analysemethoden zeigen wir, dass MSProGene eine verlässliche
datenbankunabhängige Identifikation von Genen und Proteinen ermöglicht und
zusätzlich neue Gene detektiert. Beispielsweise identifiziert MSProGene auf
einem Litomosoides sigmodontis Datensatz zwanzig mal so viele BLAST
verifizierte Proteine wie eine standard six-frame Analyse. Mit diesen
Projekten stellen wir neue Methoden für die automatisierte und akkurate
proteogenomische Analyse bereit. Die vorgestellten Methoden integrieren
erfolgreich genomische Daten mit RNA-Sequenzierungs- und Massenspektrometrie-
experimenten und tragen so zu einem besseres Verständnis von Proteinfunktion
und -interaktion bei.
de
dc.format.extent
X, 115 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Proteogenomics
dc.subject
Gene Identification
dc.subject
Linear Programming
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::005 Computerprogrammierung, Programme, Daten
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Computational methods and graphical models for integrative proteogenomics
dc.contributor.firstReferee
PD Dr. Bernhard Y. Renard
dc.contributor.furtherReferee
Prof. Dr. Oliver Kohlbacher
dc.date.accepted
2015-04-29
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000100039-2
dc.title.translated
Methoden und graphische Modelle für die integrative Proteogenomik
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000100039
refubium.mycore.derivateId
FUDISS_derivate_000000017641
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access