Microarray data data characterizes cells on the transcriptional level. Prominent applications of microarray technology in a clinical setting are the molecular diagnosis of patients and the discovery of disease subtypes by patient stratification (clustering). Lists of differentially expressed genes are often used to guide biological intuition. In general,the data can be utilized to infer novel biological hypotheses by means of pattern mining and to refine or confirm existing knowledge. This thesis contains methodological contributions to both settings. It is composed of three chapters.
The first chapter describes statistical learning techniques, which are frequently applied to microarray data with the goal of obtaining rules for molecular diagnosis. The focus lies on characteristics arising from the specific nature of high dimensional microarray data. This chapter concisely integrates concepts, algorithms and practical aspects of microarray data analysis that are usually found in distinct fields of the literature. It provides the theoretical foundation of the other chapters.
The second chapter is concerned with the unambiguous documentation of a diagnostic molecular signature or, equivalently, with the unequivocal characterization of disease or subtype of disease. Themotivation to address documentation and communication of molecular signatures is a practical one: Microarray based gene expression signatures have the potential to be powerful tools for patient stratification and diagnosis of disease. But before they can affect clinical practice they need to be communicated to other health care centers with data for independent validation. External validation of a signature can only be meaningful if the new data is transformed to a scale compatible with the original one the signature is tuned to. This scale, in turn, depends on the initial preprocessing applied in the signature deriving study. It needs to be communicated alongside with the signature. Chapter two formalizes this requirement and contains scale adjusting transformations for two popular preprocessing schemes. Using eight clinical microarray data sets I am able to show significantly increased consistency and stability of molecular diagnoses as compared to standard documentation procedures. This underlines the key point of the chapter: Data preprocessing has to be taken into account when documenting molecular characteristics of disease.
The third chapter introduces the dcoex algorithm, a method designed to utilize microarray data to reveal groups of genes losing coregulation between two phenotypes. Information about differentially coregulated genes can not only provide a molecular characterization of the phenotypes; it also provides focused information which is useful to generate hypotheses about biological mechanisms underlying the phenotypical differentiation. This chapter introduces the concept, implements an algorithm for detection and demonstrates the biological plausibility of differentially coexpressed genes. In a data set on childhood leukemia we find a biologically plausible group of genes differentially coexpressed between cytogenetically normal children and children bearing a Philadelphia chromosome. After assessing robustness and statistical significance of our findings we conclude that dcoex constitutes a new analysis tool enabling the exploration of differential coexpression patterns.
Diese Arbeit dreht sich um die Charakterisierung von Krankheiten mit Hilfe von Genexpressionsdaten. Solche Daten stellen Zellen auf molekularer Ebene dar und können zur Beschreibung von Krankheiten auf zweierlei Art verwendet werden: Zum einen kann man bekannte Krankheiten genauer und verläßlicher diagnostizieren. Zum anderen kann man versuchen, in stetig wiederkehrenden Expressionsmustern entweder neue Krankheitsentitäten zu entdecken, oder aber aufgrund solcher Muster auf biologisch-medizinische Ursachenbekannter Krankheiten zu schließen. Die vorliegende Arbeit enthält methodologisch neue Ansätze für beide Szenarien. Nach einer Einleitung, die unter anderem die Microarray-Technik kurz skizziert, folgt ein ein weiteres einführendes Kapitel. Darin werden Methoden der statistischen Lerntheorie beschrieben, die man benutzen kann um aus Beispieldaten Schemata (oder molekulare Signaturen) für eine Diagnose abzuleiten. Die Darstellung ist auf die Anwendung statistischer Verfahren auf Microarray Daten zugeschnitten und das Kapitel bildet die theoretische Grundlage der folgenden Arbeit. Thema des zweiten Kapitels ist die unzweideutige Dokumentation einmal hergeleiteter molekularer Signaturen. Die Dokumentation einer Expressionssignatur ist ein notwendiger Schritt, falls diese zwischen Wissenschaftlern und Forschungseinrichtungen ausgetauscht werden soll. Ein solcher Austausch aber muss Tests und Validierungen einer Signatur vorangehen, die ihrerseits für den klinischen Einsatz unerläßlich sind. Wir stellen zwei Methoden vor, die gebräuchliche Strategien der Datenvorverarbeitung ergänzen und demonstrieren eine signifikante Erhöhung der Stimmigkeit von Diagnosen an verschiedenen Datensätzen. Im dritten Kapitel wird das Konzept der differentiellen Ko-Expression und der dazugehörige dcoex Algorithmus vorgestellt. Eine Gruppe differentiell koexprimierter Gene hat die Eigenschaft in Proben eines bestimmten Phänotyps kohärent exprimiert zusein, verliert diese Kohärenz allerdings in den Proben eines anderen Phänotyps. Der dcoex Algorithmus ist eine Methode solche Gruppen von differentiell koexprimierten Genen in Datensätzen zu finden, wobei ein kombinatorisches Optimierungsproblem heuristisch gelöst wird. Gruppen differentiell koexprimierter Gene können nicht nur zur molekularen Charakterisierung unterschiedlicher Phänotypen beitragen. Aus den Gengruppen abgeleitete Informationen kann man zur Formulierung fokussierter biologischer Hypothesen verwenden. Wir demonstrieren dies an einem Leukämiedatensatz.