id,collection,dc.contributor.author,dc.contributor.contact,dc.contributor.firstReferee,dc.contributor.furtherReferee,dc.contributor.gender,dc.date.accepted,dc.date.accessioned,dc.date.available,dc.date.issued,dc.description,dc.description.abstract[de],dc.format.extent,dc.identifier.uri,dc.identifier.urn,dc.language,dc.rights.uri,dc.subject,dc.subject.ddc,dc.title,dc.title.translated[de],dc.type,dcterms.accessRights.dnb,dcterms.accessRights.openaire,dcterms.format[de],refubium.affiliation[de],refubium.mycore.derivateId,refubium.mycore.fudocsId "08052f12-d490-45d1-a8ac-0be148f7bb66","fub188/14","Conrad, Tim","conrad@math.fu-berlin.de","Prof. Christof Schütte","Prof. Knut Reinert||Dr. Andre Hagehülsmann","n","2008-07-10","2018-06-07T23:24:12Z","2008-10-01T12:35:52.710Z","2008","Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Extended Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 Introduction and Survey . . . . . . . . . . . . . . . . . . . . . . . 5 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Goals, Objectives and Tasks . . . . . . . . . . . . . . . . . . . . 7 2 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1 Topic Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 An Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3 Mathematical Modeling and Algorithms . . . . . . . . . . . . . 23 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Introduction to MALDI TOF MS . . . . . . . . . . . . . . . . . 25 3.3 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.4 Highly Sensitive Peak Detection . . . . . . . . . . . . . . . . . . 36 3.5 Peak Detection in 2D Maps . . . . . . . . . . . . . . . . . . . . 42 3.6 Peak Registration (Alignment) . . . . . . . . . . . . . . . . . . 44 3.7 Identifying Potential Features . . . . . . . . . . . . . . . . . . . 50 3.8 Extracting Fingerprints . . . . . . . . . . . . . . . . . . . . . . 56 3.9 Complexity Analysis . . . . . . . . . . . . . . . . . . . . . . . . 63 4 (Bio-)Medical Applications . . . . . . . . . . . . . . . . . . . . . 65 4.1 Data Used . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.2 Statistical Remarks . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3 Study Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.4 Identification of Proteomic Fingerprints in Blood Serum by High-sensitive Bioinformatic Analysis of SELDI-TOF MS Data for Detection of Testicular Germ Cell Cancer . . . . . . . . . . 90 4.5 Identification of Proteomic Fingerprints in Blood Serum by High-sensitive Bioinformatic Analysis of MALDI- TOF MS Data for Detection of Thyroid Diseases . . . . . . . . . . . . . . . . . 96 4.6 Biological Applications . . . . . . . . . . . . . . . . . . . . . . . 101 5 Computer Science Grid Strategies . . . . . . . . . . . . . . . . 103 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2 The Quasi Ad-hoc (QAD) Grid . . . . . . . . . . . . . . . . . . 111 5.3 QAD Grid Platform Server . . . . . . . . . . . . . . . . . . . . 114 5.4 QAD Grid Worker . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.5 QAD Grid Platform Services . . . . . . . . . . . . . . . . . . . 138 5.6 QAD Grid Workflows . . . . . . . . . . . . . . . . . . . . . . . 141 5.7 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 6 proteomics.net - Product-oriented Case Studies . . . . . . . . 151 6.1 Available Services . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2 Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8 Conclusion and Future Directions . . . . . . . . . . . . . . . . . 169 8.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 8.2 From Biobanks to Biomarkers . . . . . . . . . . . . . . . . . . . 170 8.3 From Biomarkers to Bioprints . . . . . . . . . . . . . . . . . . . 171 Appendix A Implementation Details . . . . . . . . . . . . . . . . . 173 Appendix B Curriculum Vitae . . . . . . . . . . . . . . . . . . . . . 175 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Glossary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196","Mass spectrometry (MS) based techniques have emerged as a standard for large- scale protein analysis. The ongoing progress in terms of more sensitive machines and improved data analysis algorithms led to a constant expansion of its fields of applications. Recently, MS was introduced into clinical proteomics with the prospect of early disease detection using proteomic pattern matching. Analyzing biological samples (e.g. blood) by mass spectrometry generates mass spectra that represent the components (molecules) contained in a sample as masses and their respective relative concentrations. In this work, we are interested in those components that are constant within a group of individuals but differ much between individuals of two distinct groups. These distinguishing components that dependent on a particular medical condition are generally called biomarkers. Since not all biomarkers found by the algorithms are of equal (discriminating) quality we are only interested in a small biomarker subset that - as a combination - can be used as a fingerprint for a disease. Once a fingerprint for a particular disease (or medical condition) is identified, it can be used in clinical diagnostics to classify unknown spectra. In this thesis we have developed new algorithms for automatic extraction of disease specific fingerprints from mass spectrometry data. Special emphasis has been put on designing highly sensitive methods with respect to signal detection. Thanks to our statistically based approach our methods are able to detect signals even below the noise level inherent in data acquired by common MS machines, such as hormones. To provide access to these new classes of algorithms to collaborating groups we have created a web-based analysis platform that provides all necessary interfaces for data transfer, data analysis and result inspection. To prove the platform's practical relevance it has been utilized in several clinical studies two of which are presented in this thesis. In these studies it could be shown that our platform is superior to commercial systems with respect to fingerprint identification. As an outcome of these studies several fingerprints for different cancer types (bladder, kidney, testicle, pancreas, colon and thyroid) have been detected and validated. The clinical partners in fact emphasize that these results would be impossible with a less sensitive analysis tool (such as the currently available systems). In addition to the issue of reliably finding and handling signals in noise we faced the problem to handle very large amounts of data, since an average dataset of an individual is about 2.5 Gigabytes in size and we have data of hundreds to thousands of persons. To cope with these large datasets, we developed a new framework for a heterogeneous (quasi) ad-hoc Grid - an infrastructure that allows to integrate thousands of computing resources (e.g. Desktop Computers, Computing Clusters or specialized hardware, such as IBM's Cell Processor in a Playstation 3).||Das Gebiet der Proteomik umfasst die Erforschung des Proteoms, d.h. der Gesamtheit aller in einem Organismus (z.B. Mensch) vorhandenen Proteine. Massenspektrometrie (MS) -basierte Verfahren haben sich als Standardtechnik zur Proteomanalyse etabliert. Diese Verfahren ermöglichen das Bestimmen der (relativen) Konzentrationen von Proteinen in Körperflüssigkeiten, wie zum Beispiel im Blut. Jede Krankheit verändert eine ganz bestimmte Menge von Proteinen (bzw. deren Konzentration) in einer charakteristischen Art und Weise und besitzt damit einen eindeutigen Fingerabdruck. Um einen aussagekräftigen Fingerabdruck für eine bestimmte Krankheit zu finden, müssen zunächst diese Veränderungen (Signale) zwischen den Daten (Spektren) von Gesunden und Kranken gefunden werden. Diese Signale werden Biomarker genannt. Analysen der Unterschiede zwischen einer Gruppe von gesunden und einer Gruppe von kranken Menschen ergeben oft hunderte von verschiedenen Biomarker, die von stark unterschiedlicher Qualität sind (bezogen auf den Unterschied zwischen ``gesund'' und ``krank''). Daher wird für den tatsächlichen Fingerabdruck diejenige Teilmenge aller möglichen Signale benutzt, die sich in Kombination am besten dazu eignen, die beiden Gruppen zu unterscheiden. Diese gefundenen Fingerabdrücke ermöglichen zum Beispiel die Früherkennung von Krankheiten. Diese Arbeit beschäftigt sich mit der oben erwähnten Analyse von Daten aus MS- Experimenten und stellt eine neue web-basierte Analyseplattform und neue Verfahren zur Vorverarbeitung, Signalerkennung und Fingerabdruckerkennung vor. Die erreichten Verbesserungen insbesondere der Detektionssensitivität steigern unmittelbar die resultierende Klassifizierungsgüte, über deren zugrundeliegende Signale eine gezielte biochemische Identifikation potentieller Biomarker überhaupt erst möglich wird. Um die praktische Relevanz der neu entwickelten Algorithmen zu zeigen, wurde die neu entwickelte Plattform bereits in mehreren klinischen Studien eingesetzt - zwei dieser Studien werden in dieser Arbeit ausführlich beschrieben. In diesen Studien wurde gezeigt, dass unsere Verfahren anderen (kommerziellen) Systemen im Bezug auf die Sensitivität bei der Erkennung von Fingerabdrücken überlegen ist. Als Ergebnis dieser Studien wurden neue Fingerabdrücke für verschiedene Krebsarten (u.a. Blase, Niere, Schilddrüse und Bauchspeicheldrüse) gefunden und validiert. Die klinischen Partner haben ausdrücklich betont, dass diese Ergebnisse mit den vorhandenen (weniger sensitiven) Systemen nicht möglich gewesen wären. Um die Verarbeitung der MS Massendaten zu ermöglichen (ca. 2.5 Gigabyte pro Datensatz bei Tausenden von Datensätzen), wurde ein neues (quasi) ad-hoc Grid System entwickelt. Diese Computerinfrastruktur bietet die Möglichkeit zur Einbindung von Tausenden von Rechenressourcen, zum Beispiel von Desktopcomputern, Computerclustern oder auch Spezialhardware, wie den Cell-Prozessor von IBM in einer Playstation 3.","VI, 196 S.","https://refubium.fu-berlin.de/handle/fub188/10447||http://dx.doi.org/10.17169/refubium-14645","urn:nbn:de:kobv:188-fudissthesis000000005486-0","eng","http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen","Proteomics||MALDI TOF||Peak Picking||Clinical Diagnostics","500 Naturwissenschaften und Mathematik||000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik","New statistical algorithms for the analysis of mass spectrometry time-of- flight mass data with applications in clinical diagnostics","Neue statistische Algorithmen zur Analyse von Massenspektrometrie Time-Of- Flight Massendaten mit Anwendungen in der klinischen Diagnostik","Dissertation","free","open access","Text","Mathematik und Informatik","FUDISS_derivate_000000004464","FUDISS_thesis_000000005486"