dc.contributor.author
Bielow, Chris
dc.date.accessioned
2018-06-07T14:33:03Z
dc.date.available
2012-11-16T11:57:19.922Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/62
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-4266
dc.description.abstract
Computational mass spectrometry is a fast evolving field that has attracted
increased attention over the last couple of years. The performance of software
solutions determines the success of analysis to a great extent. New algorithms
are required to reflect new experimental procedures and deal with new
instrument generations. One essential component of algorithm development is
the validation (as well as comparison) of software on a broad range of data
sets. This requires a gold standard (or so-called ground truth), which is
usually obtained by manual annotation of a real data set. Comprehensive
manually annotated public data sets for mass spectrometry data are labor-
intensive to produce and their quality strongly depends on the skill of the
human expert. Some parts of the data may even be impossible to annotate due to
high levels of noise or other ambiguities. Furthermore, manually annotated
data is usually not available for all steps in a typical computational
analysis pipeline. We thus developed the most comprehensive simulation
software to date, which allows to generate multiple levels of ground truth and
features a plethora of settings to reflect experimental conditions and
instrument settings. The simulator is used to generate several distinct types
of data. The data are subsequently employed to evaluate existing algorithms.
Additionally, we employ simulation to determine the influence of instrument
attributes and sample complexity on the ability of algorithms to recover
information. The results give valuable hints on how to optimize experimental
setups. Furthermore, this thesis introduces two quantitative approaches,
namely a decharging algorithm based on integer linear programming and a new
workflow for identification of differentially expressed proteins for a large
in vitro study on toxic compounds. Decharging infers the uncharged mass of a
peptide (or protein) by clustering all its charge variants. The latter occur
frequently under certain experimental conditions. We employ simulation to show
that decharging is robust against missing values even for high complexity data
and that the algorithm outperforms other solutions in terms of mass accuracy
and run time on real data. The last part of this thesis deals with a new
state-of-the-art workflow for protein quantification based on isobaric tags
for relative and absolute quantitation (iTRAQ). We devise a new approach to
isotope correction, propose an experimental design, introduce new metrics of
iTRAQ data quality, and confirm putative properties of iTRAQ data using a
novel approach. All tools developed as part of this thesis are implemented in
OpenMS, a C++ library for computational mass spectrometry.
de
dc.description.abstract
Rechnergestützte Massenspektrometrie steht seit Jahren im Fokus von
Forschungsbestrebungen und erlangt immer mehr Aufmerksamkeit. Die Güte von
Software bestimmt zu einem erheblichen Teil den Erfolg oder Misserfolg einer
Datenanalyse. Neue experimentelle Möglichkeiten und Instrumentengenerationen
erfordern die Anpassung bzw. Neuentwicklung von Algorithmen. Ein essentieller
Gesichtspunkt der Algorithmenentwicklung ist die Validierung (oder auch der
Vergleich) von Software auf einer möglichst großen Bandbreite an Eingabedaten.
Eine Validierung erfordert einen Goldstandard, der meist durch manuelle
Annotation eines Datensatzes erzeugt wird. Umfassende manuell annotierte,
öffentliche Datensätze für Massenspektrometrie sind zeitaufwändig in der
Herstellung und ihre Qualität hängt stark von den Fähigkeiten des Experten ab.
Nicht alle Teile des Datensatzes sind annotierbar, da es teilweise hohe
Rauschpegel und andere Störquellen gibt die eine zuverlässige Annotation
verhindern. Weiterhin sind manuell annotierte Datensätze üblicherweise nicht
für alle Ebenen eines Goldstandards verfügbar. Um dieses Dilemma zu beheben
entwickelten wir die zurzeit umfassendste Simulationssoftware, welche viele
Ebenen eines Goldstandards unterstützt, ebenso wie eine Vielzahl von
Einstellungen, die es erlauben, viele experimentelle Bedingungen und
Instrumenteneinstellungen nachzubilden. Der Simulator wird benutzt um mehrere
verschiedenartige Datensätze zu erzeugen. Diese werden anschließend eingesetzt
um existierende Algorithmen zu bewerten. Zusätzlich benutzen wir Simulationen
um den Einfluss von Instrumenteneigenschaften und Probenkomplexität auf die
Güte und Vollständigkeit der von Algorithmen extrahierten Informationen zu
bestimmen. Die Ergebnisse geben wertvolle Hinweise für die Optimierung von
Versuchsaufbauten. Zusätzlich führt diese Arbeit zwei quantitative Ansätze
ein: einen Decharging-Algorithmus basierend auf ganzzahligen linearen
Programmen sowie einen neuen Workflow für die Identifizierung von
differentiell exprimierten Proteinen für eine große In-vitro-Studie zur
Systemtoxikologie. Decharing inferiert die ungeladene Masse eines Peptids
(oder Proteins) durch Clustering aller seiner Ladungsvarianten. Letztere
entstehen häufig unter bestimmten experimentellen Bedingungen. Wir verwenden
Simulationen, um zu zeigen, dass Decharging robust gegen Datenlücken sogar auf
hochkomplexen Datensätzen ist, und dass der Algorithmus anderen Lösungen
hinsichtlich der Massengenauigkeit und Laufzeit auf realen Daten überlegen
ist. Der letzte Teil der Arbeit widmet sich einem modernen Workflow für
Proteinquantifizierung mit Hilfe von iTRAQ (isobaric tags for relative and
absolute quantitation). Wir stellen einen neuen Ansatz für Isotopenkorrektur
vor, entwerfen ein experimentelles Design, konzipieren neue Metriken für die
Datenqualität von iTRAQ-Daten und verifizieren vermutete Eigenschaften dieser
Art von Daten anhand von neuen Verfahren. Alle Softwarewerkzeuge, die als Teil
dieser Arbeit entstanden sind, wurden in OpenMS - einer C++-Bibliothek für
Massenspektrometrie - implementiert.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject.ddc
500 Naturwissenschaften und Mathematik::540 Chemie
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme
dc.title
Quantification and simulation of liquid chromatography-mass spectrometry data
dc.contributor.firstReferee
Professor Dr. Knut Reinert
dc.contributor.furtherReferee
Professor Dr. Oliver Kohlbacher
dc.date.accepted
2012-10-29
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000040013-0
dc.title.translated
Quantifizierung und Simulation von Daten aus der Flüssigchromatographie mit
Massenspektrometrie-Kopplung
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000040013
refubium.mycore.derivateId
FUDISS_derivate_000000012495
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access