dc.contributor.author
Jäger, Jochen Christian
dc.date.accessioned
2018-06-07T23:06:38Z
dc.date.available
2006-07-20T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/10068
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-14266
dc.description
Title Page, Content, Notations, Acknowledgment, Preface
1 Introduction
1.1 Molecular genetics
1.2 Measuring gene expression
1.3 Gene expression analysis in clinical studies
1.4 Machine learning
2 Early marker panel determination (EMPD)
2.1 A subsampling approach to evaluate the effect of EMPD
2.2 EMPD results for four gene expression studies
2.3 Relation between sample size and number of screened genes
2.4 Marker panel variability
2.5 Discussion
3 Gene list filtering for improved classification
3.1 Reducing redundancy
3.2 Correlation based filtering
3.3 Clustering based filtering
3.4 Applications
3.5 Discussion
4 Selecting normalization genes for small diagnostic microarrays
4.1 Problems of standard normalization methods for diagnostic chips
4.2 Selection of normalization genes
4.3 Selection of a balanced signatures
4.4 Normalization of small diagnostic microarrays
4.5 Results on simulated data
4.6 Results on a leukemia study
4.7 Discussion
5 Summary and Discussion
Bibliography
Applications: Expression Analysis Projects
A.1 Cardiomyopathy project
A.2 Melanoma project
Zusammenfassung
Curriculum vitae
List of Publications
dc.description.abstract
In this thesis, I discuss several problems related to the design of small
diagnostic microarrays. Currently, whole genome microarrays are frequently
used in clinical trials that aim for diagnostics. Instead of using whole
genome microarrays for all patients I propose to screen only a small fraction
of the patients with them. This serves the purpose of finding disease relevant
genes for diagnosis. Then, I suggest to switch to small diagnostic microarrays
carrying these genes. The diagnostic microarrays are now used to screen a
larger patient pool. Here, the goal is to fine tune a gene signature that
provides accurate diagnosis. In detail, I address the following three
questions that arise during the development of a diagnostic microarray:
* Accuracy loss of a diagnostic microarray What is the loss in classification accuracy when a diagnostic microarray is determined in the early onset of a clinical whole genome microarray study? In chapter 2, I present a novel, two-phase design for predictive clinical gene expression studies: early marker panel determination (EMPD). In phase-1, genome-wide microarrays are only used for a small number of individual patient samples. From this phase-1 data a panel of marker genes is derived. The marker genes are used for the design of a custom, diagnostic microarray. In phase-2, whole genome microarray are exchanged by this diagnostic microarray. Then, only the expression of the genes on this diagnostic microarray are measured for a large group of patients. From this data a predictive classification model is learned. Phase-2 does not require the use of whole genome microarrays, thus making EMPD a cost e cient alternative for current trials. Currently, a whole genome A ymetrix array (HGU 133 Plus 2.0) retails for US$975, whereas a custom express array from the same company costs 375 US$ (A ymetrix retail price sheet Jan 2006). The expected performance loss of EMPD is compared to designs that use genome-wide microarrays for all patients. I also examine the trade-o between the number of patients included in phase-1 and the number of marker genes required in phase-2. By analysis of five published datasets, I find that in these studies already 16 patients per group would have been su - cient to determine a suitable marker panel of 10 genes, and that this early decision compromises the final performance only marginally. 2. Gene selection Which genes should be included in a diagnostic signature? In chapter 3, I derive a method for improving univariate gene selection techniques for diagnosis of diseases using microarray data. Genes of interest are typically selected by ranking genes according to a test score and then choosing the top genes. I show that using highly discriminative genes that are less correlated amongst each other instead of just choosing the top ranking genes achieves better classification accuracy. I propose three di erent pre-filter methods to retrieve groups of genes that have a similar gene expression profile. Two are based on clustering and one is based on correlation. For these groups, I apply a score to finally select genes of interest. I show that the filtered set of genes can be used to significantly improve existing classifiers. 3. Normalization How can a diagnostic microarray be normalized? In chapter 4, I show that applying standard microarray normalization strategies to diagnostic microarrays results in decreased classification accuracy. The reason for this is that normalization of gene expression microarrays carrying thousands of genes has strong assumptions: either that some genes are constantly expressed or that the average of all genes is not altered by the disease conditions. This does not hold for diagnostic microarrays carrying exclusively discriminative genes. I point out the di erences of normalization between whole genome and diagnostic microarrays and suggest two normalization strategies especially designed for diagnostic microarrays. The first is a data driven selection of additional normalization genes. The second does not need additional genes. Instead it is based on finding a balanced diagnostic signature. I compare both methods to standard normalization protocols known from whole genome microarrays. The use of the latter leads to a loss of diagnostic prediction accuracy, while the two normalization strategies designed for diagnostic microarrays achieve better results. In the introductory chapter 1, I highlight the potential use of microarray profiling for diagnostics. First, I review the underlying principles of gene expression profiling by providing a basic introduction into molecular genetics and technologies for measuring gene expression. Then, current results of clinical gene expression studies from various diseases are reported. Since I derive diagnostic disease classifiers from microarray data, I shortly outline machine learning approaches, especially classification and clustering. Finally, I introduce evaluation strategies for assessing the performance on future samples. The thesis closes with a summary and an outlook. In the appendix, I briefly report on five gene expression studies I analyzed during the last 4 years. Two of the studies, namely the cardiomyopathy and the melanoma project, are discussed in more detail.
de
dc.description.abstract
Bei manchen Krebserkrankungen ist es mit herkömmlicher Diagnostik nicht
möglich, Krebs in klinisch relevante Untertypen einzuteilen. Oft unterscheiden
sich aber morphologisch identisch aussehende Tumorproben stark in ihrem
Ansprechen auf Medikamente, Metastasierungspotential oder Langzeitüberleben.
Wäre es möglich, zuverlässig vorauszusagen, ob eine Therapie anspricht, so
könnte man die vorhandenen Medikamente sinnvoller einsetzen und den Patienten
eine belastende Chemotherapie ersparen. Seit einigen Jahren ist mit der
Entwicklung sogenannter Microarrays ein entscheidender Schritt in Richtung
molekularer Diagnose gemacht worden. Microarrays messen die Expression
Tausender Gene gleichzeitig und ermöglichen einen Einblick in die genetischen
Vorgänge in den verschiedenen Geweben. Beim Vergleich von Gewebeproben ist
dabei das Hauptinteresse die Identifizierung und Charakterisierung von Genen,
die sich in den Gewebeproben unterschiedlich verhalten. Mithilfe solcher
differentieller Gene lassen sich diagnostische Klassifikatoren auf molekularer
Ebene konstruieren, die genauer als herkömmliche immunohistochemische oder
histpathologische Verfahren funktionieren. In dieser Arbeit habe ich neue
Methoden und Validierungswerkzeuge zur Entwicklung von kleinen,
kostengünstigen und effizienten diagnostischen Biomarkerpanels anhand von
Microarraydaten größerer klinischer Studien beschrieben. Ein Biomarkerpanel
kann dabei aus nur wenigen Genen bestehen und mittels z.B. qRT-PCR gemessen
werden. Bei mehreren Genen bietet sich ein kleines maßgeschneidertes
Microarray an. Um ein diagnostisches Biomarkerpanel zu entwickeln muss zuerst
gezeigt werden, dass eine Diagnose mittels Microarrays überhaupt möglich ist.
Ist das der Fall, dann wählt man sich eine geeignete Methode zur Auswahl von
diskriminierenden Genen aus. Es muß allerdings noch geklärt werden, wie viele
Gene und Patienten nötig sind, um eine Abschätzung der Genauigkeit des
Diagnosepanels zu ermöglichen. Um schließlich die Biomarkerpanels
untereinander vergleichbar zu machen, müssen diese normalisiert werden. Im
zentralen Kapitel 2 habe ich eine neue Strategie zum Design diagnostischer
Microarrays eingeführt. Dabei werden in einer ersten Phase krankheitsrelevante
Gene identifiziert. Einige wenige Patientenproben werden hierzu mit
Microarrays, die die Expression aller Gene des menschlichen Genoms messen,
analysiert. Von diesen über 20000 Genen werden die für die Diagnose relevanten
Gene identifiziert und für das Design eines kleinen Biomarkerpanel ausgewählt.
Mit diesem kostengünstigeren Biomarkerpanel werden in einer zweiten Phase
weitere Patientenproben gemessen und ein Klassifikator trainiert. Um den
Klassifizierungsverlust abzuschätzen, habe ich untersucht wie viele Patienten
in der ersten Phase nötig sind, um ein diagnostisches Microarray mit einer
vorgegebenen Anzahl von Gensonden zu erstellen. Die Analyse mehrerer
Genexpressionsstudien hat gezeigt, dass es schon früh möglich ist von einem
großen, teuren Microarray auf ein kleines, kostengünstiges Biomarkerpanel zu
wechseln. Dabei spielt die optimale Auswahl der zu untersuchenden Gene weniger
eine Rolle als das anschließende Anpassen der einzelnen Gengewichte im
Klassifikator. Unsere Evaluationsstrategie wendet dabei vollständige
Kreuzvalidierungsmethoden an, um möglichst unverfälschte Aussagen über die
Güte des Biomarkerpanels zu erlauben. Im Kapitel 3 habe ich eine effiziente,
neue Methode zur Verbesserung der Auswahl von differentiellen Genen für die
Klassifizierung vorgestellt. Durch die Selektion von hoch relevanten Genen,
die aber gleichzeitig untereinander nur schwach korreliert sind, konnte eine
deutliche Steigerung der Klassifikationsgenauigkeit erreicht werden. Diese
Verbesserung ist besonders deutlich ausgeprägt, wenn nur wenige Gene verwendet
werden, wie es bei diagnostischen Biomarkerpanels zutrifft. Im Kapitel 4 zeige
ich auf, dass es mit Standardnormalisierungsverfahren für Microarrays nicht
möglich ist Biomarkerpanels zu normalisieren, da diese andere Charakteristika
aufweisen. Eine Normalisierung ist jedoch unabdingbar um die Ergebnisse
untereinander vergleichbar machen zu können. Im Rahmen dieser Arbeit stelle
ich daher zwei neue Normalisierungsverfahren für Diagnostikchips vor. Die
erste Methode sucht in den Expressionsdaten nach Genen, die sich zur
Normalisierung eignen. Die zweite Methode benutzt balancierte Gene und kommt
ohne zusätzliche Normalisierungsgene aus. Somit können alle Gene zur
Klassifikation beitragen und erlauben ein besonders effizientes Paneldesign.
Diese Erkenntnisse können in der Zukunft für die Entwicklung von kleinen
Biomarkerpanels eingesetzt werden und es wird im Anhang exemplarisch anhand
von zwei klinischen Anwendungen der mögliche Einsatz eines diagnostischen
Panels für Genexpressionsstudien aufgezeigt.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
gene expression
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
Deriving small diagnostic biomarker panels from genome wide, clinical
microarray studies
dc.contributor.firstReferee
Prof. Martin Vingron
dc.contributor.furtherReferee
Prof. Patricia Ruiz
dc.date.accepted
2006-07-19
dc.date.embargoEnd
2006-07-21
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000002234-5
dc.title.translated
Entwicklung kleiner, diagnostischer Biomarker-Panels aus genomweiten,
klinischen Microarray-Studien
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000002234
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2006/376/
refubium.mycore.derivateId
FUDISS_derivate_000000002234
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access