In this thesis, I discuss several problems related to the design of small diagnostic microarrays. Currently, whole genome microarrays are frequently used in clinical trials that aim for diagnostics. Instead of using whole genome microarrays for all patients I propose to screen only a small fraction of the patients with them. This serves the purpose of finding disease relevant genes for diagnosis. Then, I suggest to switch to small diagnostic microarrays carrying these genes. The diagnostic microarrays are now used to screen a larger patient pool. Here, the goal is to fine tune a gene signature that provides accurate diagnosis. In detail, I address the following three questions that arise during the development of a diagnostic microarray:
* Accuracy loss of a diagnostic microarray What is the loss in classification accuracy when a diagnostic microarray is determined in the early onset of a clinical whole genome microarray study? In chapter 2, I present a novel, two-phase design for predictive clinical gene expression studies: early marker panel determination (EMPD). In phase-1, genome-wide microarrays are only used for a small number of individual patient samples. From this phase-1 data a panel of marker genes is derived. The marker genes are used for the design of a custom, diagnostic microarray. In phase-2, whole genome microarray are exchanged by this diagnostic microarray. Then, only the expression of the genes on this diagnostic microarray are measured for a large group of patients. From this data a predictive classification model is learned. Phase-2 does not require the use of whole genome microarrays, thus making EMPD a cost e cient alternative for current trials. Currently, a whole genome A ymetrix array (HGU 133 Plus 2.0) retails for US$975, whereas a custom express array from the same company costs 375 US$ (A ymetrix retail price sheet Jan 2006). The expected performance loss of EMPD is compared to designs that use genome-wide microarrays for all patients. I also examine the trade-o between the number of patients included in phase-1 and the number of marker genes required in phase-2. By analysis of five published datasets, I find that in these studies already 16 patients per group would have been su - cient to determine a suitable marker panel of 10 genes, and that this early decision compromises the final performance only marginally. 2. Gene selection Which genes should be included in a diagnostic signature? In chapter 3, I derive a method for improving univariate gene selection techniques for diagnosis of diseases using microarray data. Genes of interest are typically selected by ranking genes according to a test score and then choosing the top genes. I show that using highly discriminative genes that are less correlated amongst each other instead of just choosing the top ranking genes achieves better classification accuracy. I propose three di erent pre-filter methods to retrieve groups of genes that have a similar gene expression profile. Two are based on clustering and one is based on correlation. For these groups, I apply a score to finally select genes of interest. I show that the filtered set of genes can be used to significantly improve existing classifiers. 3. Normalization How can a diagnostic microarray be normalized? In chapter 4, I show that applying standard microarray normalization strategies to diagnostic microarrays results in decreased classification accuracy. The reason for this is that normalization of gene expression microarrays carrying thousands of genes has strong assumptions: either that some genes are constantly expressed or that the average of all genes is not altered by the disease conditions. This does not hold for diagnostic microarrays carrying exclusively discriminative genes. I point out the di erences of normalization between whole genome and diagnostic microarrays and suggest two normalization strategies especially designed for diagnostic microarrays. The first is a data driven selection of additional normalization genes. The second does not need additional genes. Instead it is based on finding a balanced diagnostic signature. I compare both methods to standard normalization protocols known from whole genome microarrays. The use of the latter leads to a loss of diagnostic prediction accuracy, while the two normalization strategies designed for diagnostic microarrays achieve better results. In the introductory chapter 1, I highlight the potential use of microarray profiling for diagnostics. First, I review the underlying principles of gene expression profiling by providing a basic introduction into molecular genetics and technologies for measuring gene expression. Then, current results of clinical gene expression studies from various diseases are reported. Since I derive diagnostic disease classifiers from microarray data, I shortly outline machine learning approaches, especially classification and clustering. Finally, I introduce evaluation strategies for assessing the performance on future samples. The thesis closes with a summary and an outlook. In the appendix, I briefly report on five gene expression studies I analyzed during the last 4 years. Two of the studies, namely the cardiomyopathy and the melanoma project, are discussed in more detail.
Bei manchen Krebserkrankungen ist es mit herkömmlicher Diagnostik nicht möglich, Krebs in klinisch relevante Untertypen einzuteilen. Oft unterscheiden sich aber morphologisch identisch aussehende Tumorproben stark in ihrem Ansprechen auf Medikamente, Metastasierungspotential oder Langzeitüberleben. Wäre es möglich, zuverlässig vorauszusagen, ob eine Therapie anspricht, so könnte man die vorhandenen Medikamente sinnvoller einsetzen und den Patienten eine belastende Chemotherapie ersparen. Seit einigen Jahren ist mit der Entwicklung sogenannter Microarrays ein entscheidender Schritt in Richtung molekularer Diagnose gemacht worden. Microarrays messen die Expression Tausender Gene gleichzeitig und ermöglichen einen Einblick in die genetischen Vorgänge in den verschiedenen Geweben. Beim Vergleich von Gewebeproben ist dabei das Hauptinteresse die Identifizierung und Charakterisierung von Genen, die sich in den Gewebeproben unterschiedlich verhalten. Mithilfe solcher differentieller Gene lassen sich diagnostische Klassifikatoren auf molekularer Ebene konstruieren, die genauer als herkömmliche immunohistochemische oder histpathologische Verfahren funktionieren. In dieser Arbeit habe ich neue Methoden und Validierungswerkzeuge zur Entwicklung von kleinen, kostengünstigen und effizienten diagnostischen Biomarkerpanels anhand von Microarraydaten größerer klinischer Studien beschrieben. Ein Biomarkerpanel kann dabei aus nur wenigen Genen bestehen und mittels z.B. qRT-PCR gemessen werden. Bei mehreren Genen bietet sich ein kleines maßgeschneidertes Microarray an. Um ein diagnostisches Biomarkerpanel zu entwickeln muss zuerst gezeigt werden, dass eine Diagnose mittels Microarrays überhaupt möglich ist. Ist das der Fall, dann wählt man sich eine geeignete Methode zur Auswahl von diskriminierenden Genen aus. Es muß allerdings noch geklärt werden, wie viele Gene und Patienten nötig sind, um eine Abschätzung der Genauigkeit des Diagnosepanels zu ermöglichen. Um schließlich die Biomarkerpanels untereinander vergleichbar zu machen, müssen diese normalisiert werden. Im zentralen Kapitel 2 habe ich eine neue Strategie zum Design diagnostischer Microarrays eingeführt. Dabei werden in einer ersten Phase krankheitsrelevante Gene identifiziert. Einige wenige Patientenproben werden hierzu mit Microarrays, die die Expression aller Gene des menschlichen Genoms messen, analysiert. Von diesen über 20000 Genen werden die für die Diagnose relevanten Gene identifiziert und für das Design eines kleinen Biomarkerpanel ausgewählt. Mit diesem kostengünstigeren Biomarkerpanel werden in einer zweiten Phase weitere Patientenproben gemessen und ein Klassifikator trainiert. Um den Klassifizierungsverlust abzuschätzen, habe ich untersucht wie viele Patienten in der ersten Phase nötig sind, um ein diagnostisches Microarray mit einer vorgegebenen Anzahl von Gensonden zu erstellen. Die Analyse mehrerer Genexpressionsstudien hat gezeigt, dass es schon früh möglich ist von einem großen, teuren Microarray auf ein kleines, kostengünstiges Biomarkerpanel zu wechseln. Dabei spielt die optimale Auswahl der zu untersuchenden Gene weniger eine Rolle als das anschließende Anpassen der einzelnen Gengewichte im Klassifikator. Unsere Evaluationsstrategie wendet dabei vollständige Kreuzvalidierungsmethoden an, um möglichst unverfälschte Aussagen über die Güte des Biomarkerpanels zu erlauben. Im Kapitel 3 habe ich eine effiziente, neue Methode zur Verbesserung der Auswahl von differentiellen Genen für die Klassifizierung vorgestellt. Durch die Selektion von hoch relevanten Genen, die aber gleichzeitig untereinander nur schwach korreliert sind, konnte eine deutliche Steigerung der Klassifikationsgenauigkeit erreicht werden. Diese Verbesserung ist besonders deutlich ausgeprägt, wenn nur wenige Gene verwendet werden, wie es bei diagnostischen Biomarkerpanels zutrifft. Im Kapitel 4 zeige ich auf, dass es mit Standardnormalisierungsverfahren für Microarrays nicht möglich ist Biomarkerpanels zu normalisieren, da diese andere Charakteristika aufweisen. Eine Normalisierung ist jedoch unabdingbar um die Ergebnisse untereinander vergleichbar machen zu können. Im Rahmen dieser Arbeit stelle ich daher zwei neue Normalisierungsverfahren für Diagnostikchips vor. Die erste Methode sucht in den Expressionsdaten nach Genen, die sich zur Normalisierung eignen. Die zweite Methode benutzt balancierte Gene und kommt ohne zusätzliche Normalisierungsgene aus. Somit können alle Gene zur Klassifikation beitragen und erlauben ein besonders effizientes Paneldesign. Diese Erkenntnisse können in der Zukunft für die Entwicklung von kleinen Biomarkerpanels eingesetzt werden und es wird im Anhang exemplarisch anhand von zwei klinischen Anwendungen der mögliche Einsatz eines diagnostischen Panels für Genexpressionsstudien aufgezeigt.