Mass spectrometry (MS) based techniques have emerged as a standard for large- scale protein analysis. The ongoing progress in terms of more sensitive machines and improved data analysis algorithms led to a constant expansion of its fields of applications. Recently, MS was introduced into clinical proteomics with the prospect of early disease detection using proteomic pattern matching. Analyzing biological samples (e.g. blood) by mass spectrometry generates mass spectra that represent the components (molecules) contained in a sample as masses and their respective relative concentrations. In this work, we are interested in those components that are constant within a group of individuals but differ much between individuals of two distinct groups. These distinguishing components that dependent on a particular medical condition are generally called biomarkers. Since not all biomarkers found by the algorithms are of equal (discriminating) quality we are only interested in a small biomarker subset that - as a combination - can be used as a fingerprint for a disease. Once a fingerprint for a particular disease (or medical condition) is identified, it can be used in clinical diagnostics to classify unknown spectra. In this thesis we have developed new algorithms for automatic extraction of disease specific fingerprints from mass spectrometry data. Special emphasis has been put on designing highly sensitive methods with respect to signal detection. Thanks to our statistically based approach our methods are able to detect signals even below the noise level inherent in data acquired by common MS machines, such as hormones. To provide access to these new classes of algorithms to collaborating groups we have created a web-based analysis platform that provides all necessary interfaces for data transfer, data analysis and result inspection. To prove the platform's practical relevance it has been utilized in several clinical studies two of which are presented in this thesis. In these studies it could be shown that our platform is superior to commercial systems with respect to fingerprint identification. As an outcome of these studies several fingerprints for different cancer types (bladder, kidney, testicle, pancreas, colon and thyroid) have been detected and validated. The clinical partners in fact emphasize that these results would be impossible with a less sensitive analysis tool (such as the currently available systems). In addition to the issue of reliably finding and handling signals in noise we faced the problem to handle very large amounts of data, since an average dataset of an individual is about 2.5 Gigabytes in size and we have data of hundreds to thousands of persons. To cope with these large datasets, we developed a new framework for a heterogeneous (quasi) ad-hoc Grid - an infrastructure that allows to integrate thousands of computing resources (e.g. Desktop Computers, Computing Clusters or specialized hardware, such as IBM's Cell Processor in a Playstation 3).
Das Gebiet der Proteomik umfasst die Erforschung des Proteoms, d.h. der Gesamtheit aller in einem Organismus (z.B. Mensch) vorhandenen Proteine. Massenspektrometrie (MS) -basierte Verfahren haben sich als Standardtechnik zur Proteomanalyse etabliert. Diese Verfahren ermöglichen das Bestimmen der (relativen) Konzentrationen von Proteinen in Körperflüssigkeiten, wie zum Beispiel im Blut. Jede Krankheit verändert eine ganz bestimmte Menge von Proteinen (bzw. deren Konzentration) in einer charakteristischen Art und Weise und besitzt damit einen eindeutigen Fingerabdruck. Um einen aussagekräftigen Fingerabdruck für eine bestimmte Krankheit zu finden, müssen zunächst diese Veränderungen (Signale) zwischen den Daten (Spektren) von Gesunden und Kranken gefunden werden. Diese Signale werden Biomarker genannt. Analysen der Unterschiede zwischen einer Gruppe von gesunden und einer Gruppe von kranken Menschen ergeben oft hunderte von verschiedenen Biomarker, die von stark unterschiedlicher Qualität sind (bezogen auf den Unterschied zwischen ``gesund'' und ``krank''). Daher wird für den tatsächlichen Fingerabdruck diejenige Teilmenge aller möglichen Signale benutzt, die sich in Kombination am besten dazu eignen, die beiden Gruppen zu unterscheiden. Diese gefundenen Fingerabdrücke ermöglichen zum Beispiel die Früherkennung von Krankheiten. Diese Arbeit beschäftigt sich mit der oben erwähnten Analyse von Daten aus MS- Experimenten und stellt eine neue web-basierte Analyseplattform und neue Verfahren zur Vorverarbeitung, Signalerkennung und Fingerabdruckerkennung vor. Die erreichten Verbesserungen insbesondere der Detektionssensitivität steigern unmittelbar die resultierende Klassifizierungsgüte, über deren zugrundeliegende Signale eine gezielte biochemische Identifikation potentieller Biomarker überhaupt erst möglich wird. Um die praktische Relevanz der neu entwickelten Algorithmen zu zeigen, wurde die neu entwickelte Plattform bereits in mehreren klinischen Studien eingesetzt - zwei dieser Studien werden in dieser Arbeit ausführlich beschrieben. In diesen Studien wurde gezeigt, dass unsere Verfahren anderen (kommerziellen) Systemen im Bezug auf die Sensitivität bei der Erkennung von Fingerabdrücken überlegen ist. Als Ergebnis dieser Studien wurden neue Fingerabdrücke für verschiedene Krebsarten (u.a. Blase, Niere, Schilddrüse und Bauchspeicheldrüse) gefunden und validiert. Die klinischen Partner haben ausdrücklich betont, dass diese Ergebnisse mit den vorhandenen (weniger sensitiven) Systemen nicht möglich gewesen wären. Um die Verarbeitung der MS Massendaten zu ermöglichen (ca. 2.5 Gigabyte pro Datensatz bei Tausenden von Datensätzen), wurde ein neues (quasi) ad-hoc Grid System entwickelt. Diese Computerinfrastruktur bietet die Möglichkeit zur Einbindung von Tausenden von Rechenressourcen, zum Beispiel von Desktopcomputern, Computerclustern oder auch Spezialhardware, wie den Cell-Prozessor von IBM in einer Playstation 3.