Lymphoma is the fifth most frequent cancer in North America and Western Europe. This thesis is concerned with transcriptional profiling of diffuse large B-cell lymphoma (DLBCL) and Burkitt lymphoma (BL) using supervised and semi-supervised machine learning methodology. It investigates two aspects of lymphoma classification in detail. (I) Diagnosis of Burkitt lymphoma: The distinction of BL and DLBCL based on traditional diagnostic criteria is often imprecise. Expert pathologist disagree frequently. Nevertheless, an accurate diagnostic distinction is mandatory for treatment decision. (II) Functional Stratification: Traditional molecular biological inference is based on hypothesis-driven intervention (e.g. via mutagenesis or over-expression of genes) in cellular systems to gain insight into molecular mechanisms. However, human cancer cells in their natural environment are not accessible to interventional assays. Thus, clinical microarray studies predominantly provide purely observational data. The contributions of the present work are: (1) The introduction of the semi-supervised learning problem of core group extension. Starting from a small set of unambiguously diagnosed tumors, the problem is to find additional cases similar to the core group from an unlabeled pool of tumors without diagnosis. (2) The development of an Expectation-Maximization (EM) based Algorithm to core group extension. (3) The generation of a linear signature allowing a quantitative and reproducible diagnostic distinction of BL and DLBCL implementing the core group extension strategy. (4) The development of a semi-supervised learning method allowing stratification of tumors from clinical microarray studies based on data from hypothesis-driven interventional cell line assays. (5) The generation of a novel functional stratification of DLBCL.
Lymphome sind die fünfthäufigste Krebserkrankung in westlichen Staaten (Europa und Nordamerika). In dieser Arbeit geht es um die molekulare Charakterisierung des diffus großzelligen B-Zell Lymphoms (DLBCL) und des Burkitt Lymphoms (BL) mit Hilfe von Transkriptionsprofilen und überwachten und halbüberwachten maschinellen Lernverfahren. Zwei wesentliche Probleme der Lymphomklassifikation werden mit Hilfe von Transkriptionsprofilen untersucht. (I) Diagnostik des Burkitt Lymphoms: Die diagnostische Unterscheidung von BL und DLBCL ist oft nicht präzise. Das heißt, verschiedene Pathologen kommen hier oft zu verschiedenen Ergebnissen. Eine zuverlässige Unterscheidung der beiden Lymphomtypen ist unerlässlich für die Auswahl der Therapie. (II) Funktionale Stratifikation: Traditionelle molekularbiologische Untersuchungen beruhen darauf, dass man experimentell gezielt in biologische Prozesse eingreift (z.B. durch Mutagenese oder Überexperession), um diese besser verstehen zu können. Das Problem bei der Untersuchung von Krebs im Menschen ist, dass man den individuellen Tumor in seiner natürlichen Umgebung nicht experimentell untersuchen kann. Eine klinische Microarraystudie liefert lediglich Beobachtungsdaten. Beiträge dieser Arbeit sind: (1) Die Einführung des halbüberwachten Lernproblems der Kerngruppenerweiterung. Dabei werden ausgehend von einer sicher diagnostizierten Kerngruppe von Tumoren weitere Fälle gesucht, die die gleichen Eigenschaften haben, von denen man aber die Diagnose nicht kennt. (2) Die Entwicklung eines Expectation-Maximization (EM) basierten Algorithmus zur zur Kerngruppenerweiterung. (3) Die Generierung einer linearen Signatur zur quantitativen und reproduzierbaren diagnostischen Unterscheidung von BL und DLBCL mit Hilfe der Kerngruppenerweiterung. (4) Entwicklung einer halbüberwachten Lernmethode, die es erlaubt Tumore in klinischen Genexpressionsstudien aufgrund der Daten aus hypothesengetriebenen Interventionsexperimenten in Zelllinien zu stratifizieren. (5) Die Generierung einer neuen funktionalen Stratifikation von DLBCL.