Computational mass spectrometry is a fast evolving field that has attracted increased attention over the last couple of years. The performance of software solutions determines the success of analysis to a great extent. New algorithms are required to reflect new experimental procedures and deal with new instrument generations. One essential component of algorithm development is the validation (as well as comparison) of software on a broad range of data sets. This requires a gold standard (or so-called ground truth), which is usually obtained by manual annotation of a real data set. Comprehensive manually annotated public data sets for mass spectrometry data are labor- intensive to produce and their quality strongly depends on the skill of the human expert. Some parts of the data may even be impossible to annotate due to high levels of noise or other ambiguities. Furthermore, manually annotated data is usually not available for all steps in a typical computational analysis pipeline. We thus developed the most comprehensive simulation software to date, which allows to generate multiple levels of ground truth and features a plethora of settings to reflect experimental conditions and instrument settings. The simulator is used to generate several distinct types of data. The data are subsequently employed to evaluate existing algorithms. Additionally, we employ simulation to determine the influence of instrument attributes and sample complexity on the ability of algorithms to recover information. The results give valuable hints on how to optimize experimental setups. Furthermore, this thesis introduces two quantitative approaches, namely a decharging algorithm based on integer linear programming and a new workflow for identification of differentially expressed proteins for a large in vitro study on toxic compounds. Decharging infers the uncharged mass of a peptide (or protein) by clustering all its charge variants. The latter occur frequently under certain experimental conditions. We employ simulation to show that decharging is robust against missing values even for high complexity data and that the algorithm outperforms other solutions in terms of mass accuracy and run time on real data. The last part of this thesis deals with a new state-of-the-art workflow for protein quantification based on isobaric tags for relative and absolute quantitation (iTRAQ). We devise a new approach to isotope correction, propose an experimental design, introduce new metrics of iTRAQ data quality, and confirm putative properties of iTRAQ data using a novel approach. All tools developed as part of this thesis are implemented in OpenMS, a C++ library for computational mass spectrometry.
Rechnergestützte Massenspektrometrie steht seit Jahren im Fokus von Forschungsbestrebungen und erlangt immer mehr Aufmerksamkeit. Die Güte von Software bestimmt zu einem erheblichen Teil den Erfolg oder Misserfolg einer Datenanalyse. Neue experimentelle Möglichkeiten und Instrumentengenerationen erfordern die Anpassung bzw. Neuentwicklung von Algorithmen. Ein essentieller Gesichtspunkt der Algorithmenentwicklung ist die Validierung (oder auch der Vergleich) von Software auf einer möglichst großen Bandbreite an Eingabedaten. Eine Validierung erfordert einen Goldstandard, der meist durch manuelle Annotation eines Datensatzes erzeugt wird. Umfassende manuell annotierte, öffentliche Datensätze für Massenspektrometrie sind zeitaufwändig in der Herstellung und ihre Qualität hängt stark von den Fähigkeiten des Experten ab. Nicht alle Teile des Datensatzes sind annotierbar, da es teilweise hohe Rauschpegel und andere Störquellen gibt die eine zuverlässige Annotation verhindern. Weiterhin sind manuell annotierte Datensätze üblicherweise nicht für alle Ebenen eines Goldstandards verfügbar. Um dieses Dilemma zu beheben entwickelten wir die zurzeit umfassendste Simulationssoftware, welche viele Ebenen eines Goldstandards unterstützt, ebenso wie eine Vielzahl von Einstellungen, die es erlauben, viele experimentelle Bedingungen und Instrumenteneinstellungen nachzubilden. Der Simulator wird benutzt um mehrere verschiedenartige Datensätze zu erzeugen. Diese werden anschließend eingesetzt um existierende Algorithmen zu bewerten. Zusätzlich benutzen wir Simulationen um den Einfluss von Instrumenteneigenschaften und Probenkomplexität auf die Güte und Vollständigkeit der von Algorithmen extrahierten Informationen zu bestimmen. Die Ergebnisse geben wertvolle Hinweise für die Optimierung von Versuchsaufbauten. Zusätzlich führt diese Arbeit zwei quantitative Ansätze ein: einen Decharging-Algorithmus basierend auf ganzzahligen linearen Programmen sowie einen neuen Workflow für die Identifizierung von differentiell exprimierten Proteinen für eine große In-vitro-Studie zur Systemtoxikologie. Decharing inferiert die ungeladene Masse eines Peptids (oder Proteins) durch Clustering aller seiner Ladungsvarianten. Letztere entstehen häufig unter bestimmten experimentellen Bedingungen. Wir verwenden Simulationen, um zu zeigen, dass Decharging robust gegen Datenlücken sogar auf hochkomplexen Datensätzen ist, und dass der Algorithmus anderen Lösungen hinsichtlich der Massengenauigkeit und Laufzeit auf realen Daten überlegen ist. Der letzte Teil der Arbeit widmet sich einem modernen Workflow für Proteinquantifizierung mit Hilfe von iTRAQ (isobaric tags for relative and absolute quantitation). Wir stellen einen neuen Ansatz für Isotopenkorrektur vor, entwerfen ein experimentelles Design, konzipieren neue Metriken für die Datenqualität von iTRAQ-Daten und verifizieren vermutete Eigenschaften dieser Art von Daten anhand von neuen Verfahren. Alle Softwarewerkzeuge, die als Teil dieser Arbeit entstanden sind, wurden in OpenMS - einer C++-Bibliothek für Massenspektrometrie - implementiert.