Proteolysis, the catalyzed hydrolysis of peptide bonds, is an important post- translational modification, having a significant influence on the life cycle of protein and peptides. It is involved in numerous biological processes, like apoptosis, cell cycle progression, or blood coagulation. More then 500 genes were annotated as proteases, the enzymes catalyzing proteolytic cleavage of proteins and peptides, but many of them are still insufficiently characterized. Hence a profound understanding of proteolytic processes is essential for a detailed analysis of many biological processes. Furthermore proteolysis is associated with multiple complex diseases like cancer and Alzheimer’s disease and is known to be involved in the infection with the HI- virus. Beyond its implication in biological processes, proteolysis can also be utilized for diagnostic and treatment purposes. Proteases, the enzymes catalyzing proteolytic cleavage, are established drug targets and their potential as biomarkers has been postulated in 2006 by Villanueva et al. In this thesis we present a novel approach to the characterization of proteolytic processes using mass spectrometry data. We utilize the qualitative and quantitative information of the mass spectra to construct a model, the degradation graph, containing all involved peptides as well as the individual proteolytic reactions that connect them. We further propose a transformation of the degradation graph into a mathematical model that can be utilized in combination with the mass spectrometry data to estimate the rate constants of the individual reactions inside the degradation graph. Additionally we developed a score that can be used to rate different degradation graphs with respect to their ability to explain the observed mass spectrometry data. We use this score to iteratively improve the structure of an initially constructed degradation graph so as to account for errors during the construction of the degradation graph. While more and more mass spectrometry data is produced and is publicly available, there is a lack of well annotated, so called gold standard or ground truth datasets. Those datasets are required for a thorough benchmarking of novel algorithms and newly developed software. This problem is increasing as the experimental setups and scientific questions in computa- tional mass spectrometry get more and more complex. We therefore present MSSimulator, a comprehensive simulator for mass spectrometry data. Although using simulated data does not remove the need for testing on real datasets, it eases algorithm benchmarking and development, due to the availability of ground truth data which enables us to compare and validate the results more effectively. MSSimulator is the currently most comprehensive simulator for mass spectrometry data. It provides different types of experimental setups (e.g. labeled and label-free setups), simulation of tandem mass spectra, as well as numerous options to reflect different experimental conditions like noise, chromatographic conditions, or instrument type. It produces different levels of ground truth starting with the simulated raw data, to feature and peak locations, and relational information (e.g. grouping of charge states or labeled pairs). With the data generated by MSSimulator we benchmarked different existing applications for the analysis of mass spectrometry data as well as our own approach for the analysis of proteolytic processes.
Proteolyse, die Hydrolyse von Peptidbindungen, ist eine wichtige post- translationale Modifikation, die maßgeblich den Lebenszyklus von Proteinen und Peptiden beeinflusst. Sie ist in zahlreichen biologischen Prozessen, wie z.B. der Regulation des Zellzyklus, der Apoptose oder der Blutgerinnung regulatorisch aktiv. Mehr als 500 Gene im menschlichen Genom wurden als Proteasen, Enzyme die den proteolytischen Verdau von Proteinen und Peptiden katalysieren, annotiert. Trotzdem sind viele bis heute nur unzureichend untersucht. Ein besseres Verständnis proteolytischer Prozesse, der komplexen Kaskaden von interagierenden Proteasen, ist folglich eine grundlegende Voraussetzung für eine detaillierte Analyse biologischer Prozesse. Bei der Entwicklung von komplexen Krankheiten wie Krebs und Alzheimer und der Infektion mit dem HI-Virus spielt die Proteolyse ebenfalls eine bedeutende Rolle und beeinflusst folglich sowohl deren Diagnose als auch die Behandlung. Proteasen sind etablierte Zielproteine für Arzneimittel. Ihr Potential als Biomarker wurde 2006 von Villanueva et al. beschrieben. In dieser Arbeit beschreiben wir einen neuen Ansatz zur Charakterisierung von proteolytischen Prozessen. Wir präsentieren eine Methode, die unter Ausnutzung der qualitativen und quantitativen Informationen in Massenspetrometriedaten, ein Modell - den Degradation Graph - konstruiert. Dieses Modell enthält sowohl alle involvierten Peptide als auch die proteolytischen Reaktionen, die diese mit einander verbinden. Zusätzlich beschreiben wir eine Transformation des degradation graphs in ein mathematisches Modell, welches zusammen mit den Massenspektrometriedaten dazu verwendet werden kann die Reaktionskonstanten der einzelnen proteolytischen Reaktionen zu schätzen. Darüber hinaus haben wir ein Bewertungsschema für den degradation graph entwickelt. Es dient dazu, verschiedene degradation graphs miteinander, im Bezug auf ihrer Fähigkeit die beobachteten Daten zu erklären, zu vergleichen. Dieses Bewertungsschema haben wir dazu verwendet die anfänglich konstruierten degradation graphs schrittweise zu verbessern um mögliche Fehler bei der Konstruktion auszugleichen. In den letzten Jahren ist die Menge an öffentlich verfügbaren Massenspetrometriedaten stetig angestiegen. Dennoch herrscht weiterhin ein Mangel an gut annotierten Datensätzen, so genannter Goldstandards. Die Goldstandards sind notwendig um neu entwickelte Programme und Algorithmen intensiv testen und mit bestehenden Ansätzen vergleichen zu können. Die zunehmende Komplexität der wissenschaftlichen Fragestellungen und experimentellen Techniken vergrößert den Bedarf an Goldstandards zusätzlich. Zur Lösung des Problems haben wir MSSimulator entwickelt, einen umfangreichen Simulator für Massenspetrometriedaten. Obwohl die Verwendung von simulierten Daten die Notwendigkeit der Validierung auf realen Daten nicht obsolet macht, so erleichtert es doch die Entwicklung und das Testen von neuen Methoden. Ein Vergleich mit bereits existierenden Methodiken wird ebenfalls stark vereinfacht. MSSimulator ermöglicht die Simulation von unterschiedlichen experimentellen Ansätzen sowie die Simulation von Tandem- Massenspektrometriedaten. Es bietet vielfältige Einstellmöglichkeiten um die generierten Daten unter anderem im Hinblick auf Rauschen, chromatographischen Bedingungen oder Auflösung, dem eigenen experimentellen Aufbau anzupassen. MSSimulator erzeugt mehrere Ebenen des Goldstandards, angefangen bei den simulierten Rohdaten über die exakten Peptide- und Peakpositionen bis hin zu Gruppierungsinformationen, z.B. unterschiedlicher Ladungsvarianten. Die simulierten Daten nutzen wir in dieser Arbeit zum Vergleich verschiedener existierender Applikationen, zur Analyse von Massenspektrometriedaten und zur Entwicklung und Validierung unseres Ansatzes zur Analyse von proteolytischen Prozessen.