dc.contributor.author
Schulz-Trieglaff, Ole
dc.date.accessioned
2018-06-07T18:53:54Z
dc.date.available
2009-08-05T10:09:38.114Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/5515
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-9714
dc.description.abstract
Das Thema dieser Arbeit sind Algorithmen für die Analyse vom
Füssigchromatographie-Massenspektrometrie (LC-MS) Daten. Das Ergebnis eines
LC-MS experiment wird LC-MS Map genannt. Die Map ist eine Gruppe von
Massenspektren. Mit Hilfe der Massenspektrometrie lassen sich komplexe
biologische Proben auf ihre Zusammensetzung untersuchen. In Kombination mit
Fl¨ussigchromatographie ist sie zu einem wichtigen Werkzeug in der Proteomik
geworden. Die Proteomik umfasst die Erforschung des Proteoms, das heißt der
Gesamtheit aller in einer Probe vorhandenen Proteine und Peptide. Proteomik
als wissenschaftliche Disziplin ist den letzten Jahren sehr populär geworden,
da Proteine essentielle Reaktionen in der Zelle steuern und als wichtige
Angriffspunkte für die Diagnose und Heilung von Krankheiten gelten. Diese
Arbeit enthält drei neue wissenschaftliche Beiträge. Der erste ist
SweepWavelet, ein Algorithmus zur Quantifizierung von Peptiden aus LC-MS
Daten. Die akkurate Quantifizierung von Peptiden und Proteinen ist ein
wichtiges Thema in der biomedizinischen Forschung, da sie der erste Schritt in
der rechnergestützten Analyse von LC-MS Daten ist. Alle weiteren Schritte
hängen von einer präzisen und zuverlässigen Quantifizierung ab. Im Gegensatz
zu bestehenden Verfahren ist unser Algorithmus flexibel, schnell und kann
leicht an Datensätze von verschiedenen LC-MS Instrumenten angepasst werden.
Unser Algorithmus besteht aus drei Schritten: wir verwenden eine Wavelet
Funktion um Peptidsignale aus den LC-MS Daten herauszufiltern und
Hintergrundrauschen zu unterdr¨ucken. Danach benutzen wir die sweep-line
Methode aus der algorithmischen Geometrie um effizient die Position der
Peptidsignale im LC-MS Datensatz zu bestimmen und ihre Abundanz zu schätzen.
Im dritten Teil des Algorithmus verwenden wir ein flexibles Modell von LC-MS
Peptidsignalen um falsch positive Signale zu entfernen. Der zweite Teil dieser
Arbeit widmet sich dem Vergleich von Algorithmen zur Peptidsignalerkennung und
-quantifizierung. Dies ist ein schwieriges Unterfangen, da man in echten LC-MS
Experimenten im Voraus nicht mit Sicherheit bestimmen kann, welche Substanzen
in der LC-MS Map als Signale auftreten und welche nicht. Deshalb sind die
Resultate von Algorithmen oft schwer zu beurteilen. Wir führen Vergleiche auf
echten und simulierten Daten durch. Zu diesem Zweck haben wir eine
Simulationssoftware f¨ur LC-MS Experimente entwickelt. Diese Software, LC-
MSsim, simuliert alle Teilschritte eines LC-MS Experiments, u.a. die
Vorhersage von Retentionszeiten, Elutionsprofile und Hintergrundrauschen in
den Spektren. Das Ergebnis einer Simulation ist ein künstlicher LC-MS
Datensatz mit einer Liste der Positionen, Ladungen und Intensitäten aller
Peptidsignale. Wir verwenden den Simulator um verschiedene Algorithmen zur
Peptidquantifizierung zu vergleichen. Die Software ist unter einer Open Source
Lizenz frei verfügbar. LC-MSsim ist die erste frei verfügbare Software, welche
vollständige LC-MS Datensätze inklusive die wichtigsten experimentellen
Schritte simulieren kann. Der dritte Beitrag dieser Arbeit ist eine neue
statistische Methode zur Erkennung von Ausreißern bzw. Datensätzen schlechter
Qualität in LC-MS Studien. Diese Methode basiert auf einer projection pursuit
Version der Hauptkomponentenanalyse. Der Vorteil des projection pursuit
Ansatzes ist seine Robustheit gegenüber Ausreißern. In anderen
wissenschaftlichen Gebieten, wie z.B. der Genexpressionsanalyse, sind Methoden
zur Qualitätskontrolle weit verbreitet. Unsere Methode gehört jedoch zu den
ersten die sich der Qualitätskontrolle in LC-MS gestützten Studien widmet.
Gerade in Hochdurchsatzexperimenten ist es äußerst wichtig, schlechte
Messungen schnell entfernen zu können, um aussagekräftige Ergebnisse zu
erhalten. Wir evaluieren unsere Methode auf simulierten und echten Daten und
zeigen, dass wir Ausreißer schnell und präzise identifizieren können.
de
dc.description.abstract
This thesis presents algorithms for the analysis of liquid chromatography-mass
spectrometry (LC-MS) data. Mass spectrometry is a technology that can be used
to determine the identities and abundances of the compounds in complex
samples. In combination with liquid chromatography, it has become a popular
method in the field of proteomics, the large-scale study of proteins and
peptides in living systems. This area of research has gained a lot of interest
in recent years since proteins control fundamental reactions in the cell.
Consequently, a deeper knowledge of their function is expected to be crucial
for the development of new drugs and the cure of diseases. The data sets
obtained from an LC-MS experiment are large and highly complex. The outcome of
such an experiment is called an LC-MS map. The map is a collection of mass
spectra. They contain, among the signals of interest, a high amount of noise
and other disturbances. That is why algorithms for the low-level processing of
LC-MS data are becoming increasingly important. These algorithms are the focus
of this text. Our novel contributions are threefold: first, we introduce
SweepWavelet, an algorithm for the efficient detection and quantification of
peptides from LC-MS data. The quantification of proteins and peptides using
mass spectrometry is of high interest for biomedical research but also for the
pharmaceutical industry since it is usually among the first steps in an LC-MS
data analysis pipeline and all subsequent steps depend on its quality. Our
approach was among the first to address this problem in a sound computational
framework. It consists of three steps: first, we apply a tailored wavelet
function that filters mass spectra for the isotope peaks of peptides. Second,
we use a method inspired by the sweep-line paradigm which makes use of the
redundant information in LC-MS data to determine mass, charge, retention time
and abundance of all peptides. Finally, we apply a flexible peptide signal
model to filter the extracted signals for false positives. The second part of
this thesis deals with the benchmarking of LC-MS signal detection algorithms.
This is a non-trivial task since it is difficult to establish a ground truth
using real world samples: which sample compounds become visible in an LC-MS
data set is not known in advance. To this end, we use annotated data and
simulations to assess the performance of currently available algorithms. To
simulate benchmark data, we developed a simulation software called LC-MSsim.
It incorporates computational models for retention time prediction, peptide
detectability, isotope pattern and elution peaks. Using this software, we can
simulate all steps in an LC-MS experiment and obtain a list with the
positions, charges and abundances of all peptide signals contained in the
resulting LC-MS map. This gives us a ground truth against which we can match
the results of a signal detection algorithm. In this thesis, we use it for the
benchmarking of quantification algorithms but its scope is wider and it can
also be used to evaluate other algorithms. To our knowledge, LC-MSsim is the
first software that can simulate the full LC-MS data acquisition process. The
third contribution of this thesis is a statistical framework for the quality
assessment of quantitative LC-MS experiments. Whereas quality assessment and
control are already widespread in the field of gene expression analysis, our
work is the first to address this problem for LCMS data. We use methods from
robust statistics to detect outlier LC-MS maps in large-scale quantitative
experiments. Our approach introduces the notion of quality descriptors to
derive an abstract representation of an LC-MS map and applies a robust
principal component analysis based on projection pursuit. We show that it is
sensible to use robust statistics for this problem and evaluate our method on
simulated maps and on data from three real-world LC-MS studies.
en
dc.format.extent
124, [10] S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Massenspektrometrie
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Computational methods for Quantitative Peptide Mass Spectrometry
dc.contributor.contact
ole.st@gmx.de
dc.contributor.firstReferee
Prof. Dr. Knut Reinert
dc.contributor.furtherReferee
Prof. Dr. Oliver Kohlbacher
dc.date.accepted
2009-06-11
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000010541-4
dc.title.translated
Rechnergestützte Methoden für die Quantitative Massenspektrometrie von
Peptiden
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000010541
refubium.mycore.derivateId
FUDISS_derivate_000000005794
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access