dc.contributor.author
Conrad, Tim
dc.date.accessioned
2018-06-07T23:24:12Z
dc.date.available
2008-10-01T12:35:52.710Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/10447
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-14645
dc.description
Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Extended Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1
Introduction and Survey . . . . . . . . . . . . . . . . . . . . . . . 5 1.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2
Goals, Objectives and Tasks . . . . . . . . . . . . . . . . . . . . 7 2
Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Topic Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 An Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3
Mathematical Modeling and Algorithms . . . . . . . . . . . . . 23 3.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2
Introduction to MALDI TOF MS . . . . . . . . . . . . . . . . . 25 3.3
Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.4
Highly Sensitive Peak Detection . . . . . . . . . . . . . . . . . . 36 3.5
Peak Detection in 2D Maps . . . . . . . . . . . . . . . . . . . . 42 3.6 Peak
Registration (Alignment) . . . . . . . . . . . . . . . . . . 44 3.7
Identifying Potential Features . . . . . . . . . . . . . . . . . . . 50 3.8
Extracting Fingerprints . . . . . . . . . . . . . . . . . . . . . . 56 3.9
Complexity Analysis . . . . . . . . . . . . . . . . . . . . . . . . 63 4
(Bio-)Medical Applications . . . . . . . . . . . . . . . . . . . . . 65 4.1
Data Used . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.2
Statistical Remarks . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3
Study Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.4
Identification of Proteomic Fingerprints in Blood Serum by High-sensitive
Bioinformatic Analysis of SELDI-TOF MS Data for Detection of Testicular Germ
Cell Cancer . . . . . . . . . . 90 4.5 Identification of Proteomic
Fingerprints in Blood Serum by High-sensitive Bioinformatic Analysis of MALDI-
TOF MS Data for Detection of Thyroid Diseases . . . . . . . . . . . . . . . .
. 96 4.6 Biological Applications . . . . . . . . . . . . . . . . . . . . . . .
101 5 Computer Science Grid Strategies . . . . . . . . . . . . . . . . 103 5.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2
The Quasi Ad-hoc (QAD) Grid . . . . . . . . . . . . . . . . . . 111 5.3 QAD
Grid Platform Server . . . . . . . . . . . . . . . . . . . . 114 5.4 QAD Grid
Worker . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.5 QAD Grid
Platform Services . . . . . . . . . . . . . . . . . . . 138 5.6 QAD Grid
Workflows . . . . . . . . . . . . . . . . . . . . . . . 141 5.7 Related Work .
. . . . . . . . . . . . . . . . . . . . . . . . . . . 146 6 proteomics.net -
Product-oriented Case Studies . . . . . . . . 151 6.1 Available Services . . .
. . . . . . . . . . . . . . . . . . . . . . 152 6.2 Case Studies . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 153 7 Related Work . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 167 8 Conclusion and Future
Directions . . . . . . . . . . . . . . . . . 169 8.1 Conclusion . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 169 8.2 From Biobanks to
Biomarkers . . . . . . . . . . . . . . . . . . . 170 8.3 From Biomarkers to
Bioprints . . . . . . . . . . . . . . . . . . . 171 Appendix A Implementation
Details . . . . . . . . . . . . . . . . . 173 Appendix B Curriculum Vitae . .
. . . . . . . . . . . . . . . . . . . 175 References . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 177 Glossary . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 196
dc.description.abstract
Mass spectrometry (MS) based techniques have emerged as a standard for large-
scale protein analysis. The ongoing progress in terms of more sensitive
machines and improved data analysis algorithms led to a constant expansion of
its fields of applications. Recently, MS was introduced into clinical
proteomics with the prospect of early disease detection using proteomic
pattern matching. Analyzing biological samples (e.g. blood) by mass
spectrometry generates mass spectra that represent the components (molecules)
contained in a sample as masses and their respective relative concentrations.
In this work, we are interested in those components that are constant within a
group of individuals but differ much between individuals of two distinct
groups. These distinguishing components that dependent on a particular medical
condition are generally called biomarkers. Since not all biomarkers found by
the algorithms are of equal (discriminating) quality we are only interested in
a small biomarker subset that - as a combination - can be used as a
fingerprint for a disease. Once a fingerprint for a particular disease (or
medical condition) is identified, it can be used in clinical diagnostics to
classify unknown spectra. In this thesis we have developed new algorithms for
automatic extraction of disease specific fingerprints from mass spectrometry
data. Special emphasis has been put on designing highly sensitive methods with
respect to signal detection. Thanks to our statistically based approach our
methods are able to detect signals even below the noise level inherent in data
acquired by common MS machines, such as hormones. To provide access to these
new classes of algorithms to collaborating groups we have created a web-based
analysis platform that provides all necessary interfaces for data transfer,
data analysis and result inspection. To prove the platform's practical
relevance it has been utilized in several clinical studies two of which are
presented in this thesis. In these studies it could be shown that our platform
is superior to commercial systems with respect to fingerprint identification.
As an outcome of these studies several fingerprints for different cancer types
(bladder, kidney, testicle, pancreas, colon and thyroid) have been detected
and validated. The clinical partners in fact emphasize that these results
would be impossible with a less sensitive analysis tool (such as the currently
available systems). In addition to the issue of reliably finding and handling
signals in noise we faced the problem to handle very large amounts of data,
since an average dataset of an individual is about 2.5 Gigabytes in size and
we have data of hundreds to thousands of persons. To cope with these large
datasets, we developed a new framework for a heterogeneous (quasi) ad-hoc Grid
- an infrastructure that allows to integrate thousands of computing resources
(e.g. Desktop Computers, Computing Clusters or specialized hardware, such as
IBM's Cell Processor in a Playstation 3).
de
dc.description.abstract
Das Gebiet der Proteomik umfasst die Erforschung des Proteoms, d.h. der
Gesamtheit aller in einem Organismus (z.B. Mensch) vorhandenen Proteine.
Massenspektrometrie (MS) -basierte Verfahren haben sich als Standardtechnik
zur Proteomanalyse etabliert. Diese Verfahren ermöglichen das Bestimmen der
(relativen) Konzentrationen von Proteinen in Körperflüssigkeiten, wie zum
Beispiel im Blut. Jede Krankheit verändert eine ganz bestimmte Menge von
Proteinen (bzw. deren Konzentration) in einer charakteristischen Art und Weise
und besitzt damit einen eindeutigen Fingerabdruck. Um einen aussagekräftigen
Fingerabdruck für eine bestimmte Krankheit zu finden, müssen zunächst diese
Veränderungen (Signale) zwischen den Daten (Spektren) von Gesunden und Kranken
gefunden werden. Diese Signale werden Biomarker genannt. Analysen der
Unterschiede zwischen einer Gruppe von gesunden und einer Gruppe von kranken
Menschen ergeben oft hunderte von verschiedenen Biomarker, die von stark
unterschiedlicher Qualität sind (bezogen auf den Unterschied zwischen
``gesund'' und ``krank''). Daher wird für den tatsächlichen Fingerabdruck
diejenige Teilmenge aller möglichen Signale benutzt, die sich in Kombination
am besten dazu eignen, die beiden Gruppen zu unterscheiden. Diese gefundenen
Fingerabdrücke ermöglichen zum Beispiel die Früherkennung von Krankheiten.
Diese Arbeit beschäftigt sich mit der oben erwähnten Analyse von Daten aus MS-
Experimenten und stellt eine neue web-basierte Analyseplattform und neue
Verfahren zur Vorverarbeitung, Signalerkennung und Fingerabdruckerkennung vor.
Die erreichten Verbesserungen insbesondere der Detektionssensitivität steigern
unmittelbar die resultierende Klassifizierungsgüte, über deren
zugrundeliegende Signale eine gezielte biochemische Identifikation
potentieller Biomarker überhaupt erst möglich wird. Um die praktische Relevanz
der neu entwickelten Algorithmen zu zeigen, wurde die neu entwickelte
Plattform bereits in mehreren klinischen Studien eingesetzt - zwei dieser
Studien werden in dieser Arbeit ausführlich beschrieben. In diesen Studien
wurde gezeigt, dass unsere Verfahren anderen (kommerziellen) Systemen im Bezug
auf die Sensitivität bei der Erkennung von Fingerabdrücken überlegen ist. Als
Ergebnis dieser Studien wurden neue Fingerabdrücke für verschiedene Krebsarten
(u.a. Blase, Niere, Schilddrüse und Bauchspeicheldrüse) gefunden und
validiert. Die klinischen Partner haben ausdrücklich betont, dass diese
Ergebnisse mit den vorhandenen (weniger sensitiven) Systemen nicht möglich
gewesen wären. Um die Verarbeitung der MS Massendaten zu ermöglichen (ca. 2.5
Gigabyte pro Datensatz bei Tausenden von Datensätzen), wurde ein neues (quasi)
ad-hoc Grid System entwickelt. Diese Computerinfrastruktur bietet die
Möglichkeit zur Einbindung von Tausenden von Rechenressourcen, zum Beispiel
von Desktopcomputern, Computerclustern oder auch Spezialhardware, wie den
Cell-Prozessor von IBM in einer Playstation 3.
de
dc.format.extent
VI, 196 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Clinical Diagnostics
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
New statistical algorithms for the analysis of mass spectrometry time-of-
flight mass data with applications in clinical diagnostics
dc.contributor.contact
conrad@math.fu-berlin.de
dc.contributor.firstReferee
Prof. Christof Schütte
dc.contributor.furtherReferee
Prof. Knut Reinert
dc.contributor.furtherReferee
Dr. Andre Hagehülsmann
dc.date.accepted
2008-07-10
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000005486-0
dc.title.translated
Neue statistische Algorithmen zur Analyse von Massenspektrometrie Time-Of-
Flight Massendaten mit Anwendungen in der klinischen Diagnostik
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000005486
refubium.mycore.derivateId
FUDISS_derivate_000000004464
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access