dc.contributor.author
Kostka, Dennis Alexander
dc.date.accessioned
2018-06-07T16:37:57Z
dc.date.available
2007-01-22T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/2815
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-7016
dc.description
Contents, Acknowledgements and Introduction i
1.Finding Molecular Characteristics of Disease 1
* Motivation
* Supervised Classification of Patients
* Discussion and Summary
2\. Communicating Molecular Characteristics of Disease 19
* Motivation
* Preprocessing of Oligonucleotide Microarrays
* Documentation of Signatures
* Application to Data
* Compatibility of External Patients to Core Data
* Discussion and Summary
3\. Exploring Molecular Characteristics of Disease 45
* Motivation
* The dcoex Algorithm
* Application to Data
* Discussion and Summary
Summary and Bibliography 67
Appendices 85
dc.description.abstract
Microarray data data characterizes cells on the transcriptional level.
Prominent applications of microarray technology in a clinical setting are the
molecular diagnosis of patients and the discovery of disease subtypes by
patient stratification (clustering). Lists of differentially expressed genes
are often used to guide biological intuition. In general,the data can be
utilized to infer novel biological hypotheses by means of pattern mining and
to refine or confirm existing knowledge. This thesis contains methodological
contributions to both settings. It is composed of three chapters.
The first chapter describes statistical learning techniques, which are
frequently applied to microarray data with the goal of obtaining rules for
molecular diagnosis. The focus lies on characteristics arising from the
specific nature of high dimensional microarray data. This chapter concisely
integrates concepts, algorithms and practical aspects of microarray data
analysis that are usually found in distinct fields of the literature. It
provides the theoretical foundation of the other chapters.
The second chapter is concerned with the unambiguous documentation of a
diagnostic molecular signature or, equivalently, with the unequivocal
characterization of disease or subtype of disease. Themotivation to address
documentation and communication of molecular signatures is a practical one:
Microarray based gene expression signatures have the potential to be powerful
tools for patient stratification and diagnosis of disease. But before they can
affect clinical practice they need to be communicated to other health care
centers with data for independent validation. External validation of a
signature can only be meaningful if the new data is transformed to a scale
compatible with the original one the signature is tuned to. This scale, in
turn, depends on the initial preprocessing applied in the signature deriving
study. It needs to be communicated alongside with the signature. Chapter two
formalizes this requirement and contains scale adjusting transformations for
two popular preprocessing schemes. Using eight clinical microarray data sets I
am able to show significantly increased consistency and stability of molecular
diagnoses as compared to standard documentation procedures. This underlines
the key point of the chapter: Data preprocessing has to be taken into account
when documenting molecular characteristics of disease.
The third chapter introduces the dcoex algorithm, a method designed to utilize
microarray data to reveal groups of genes losing coregulation between two
phenotypes. Information about differentially coregulated genes can not only
provide a molecular characterization of the phenotypes; it also provides
focused information which is useful to generate hypotheses about biological
mechanisms underlying the phenotypical differentiation. This chapter
introduces the concept, implements an algorithm for detection and demonstrates
the biological plausibility of differentially coexpressed genes. In a data set
on childhood leukemia we find a biologically plausible group of genes
differentially coexpressed between cytogenetically normal children and
children bearing a Philadelphia chromosome. After assessing robustness and
statistical significance of our findings we conclude that dcoex constitutes a
new analysis tool enabling the exploration of differential coexpression
patterns.
de
dc.description.abstract
Diese Arbeit dreht sich um die Charakterisierung von Krankheiten mit Hilfe von
Genexpressionsdaten. Solche Daten stellen Zellen auf molekularer Ebene dar und
können zur Beschreibung von Krankheiten auf zweierlei Art verwendet werden:
Zum einen kann man bekannte Krankheiten genauer und verläßlicher
diagnostizieren. Zum anderen kann man versuchen, in stetig wiederkehrenden
Expressionsmustern entweder neue Krankheitsentitäten zu entdecken, oder aber
aufgrund solcher Muster auf biologisch-medizinische Ursachenbekannter
Krankheiten zu schließen. Die vorliegende Arbeit enthält methodologisch neue
Ansätze für beide Szenarien.
Nach einer Einleitung, die unter anderem die Microarray-Technik kurz
skizziert, folgt ein ein weiteres einführendes Kapitel. Darin werden Methoden
der statistischen Lerntheorie beschrieben, die man benutzen kann um aus
Beispieldaten Schemata (oder molekulare Signaturen) für eine Diagnose
abzuleiten. Die Darstellung ist auf die Anwendung statistischer Verfahren auf
Microarray Daten zugeschnitten und das Kapitel bildet die theoretische
Grundlage der folgenden Arbeit.
Thema des zweiten Kapitels ist die unzweideutige Dokumentation einmal
hergeleiteter molekularer Signaturen. Die Dokumentation einer
Expressionssignatur ist ein notwendiger Schritt, falls diese zwischen
Wissenschaftlern und Forschungseinrichtungen ausgetauscht werden soll. Ein
solcher Austausch aber muss Tests und Validierungen einer Signatur vorangehen,
die ihrerseits für den klinischen Einsatz unerläßlich sind. Wir stellen zwei
Methoden vor, die gebräuchliche Strategien der Datenvorverarbeitung ergänzen
und demonstrieren eine signifikante Erhöhung der Stimmigkeit von Diagnosen an
verschiedenen Datensätzen.
Im dritten Kapitel wird das Konzept der differentiellen Ko-Expression und der
dazugehörige dcoex Algorithmus vorgestellt. Eine Gruppe differentiell
koexprimierter Gene hat die Eigenschaft in Proben eines bestimmten Phänotyps
kohärent exprimiert zusein, verliert diese Kohärenz allerdings in den Proben
eines anderen Phänotyps. Der dcoex Algorithmus ist eine Methode solche Gruppen
von differentiell koexprimierten Genen in Datensätzen zu finden, wobei ein
kombinatorisches Optimierungsproblem heuristisch gelöst wird. Gruppen
differentiell koexprimierter Gene können nicht nur zur molekularen
Charakterisierung unterschiedlicher Phänotypen beitragen. Aus den Gengruppen
abgeleitete Informationen kann man zur Formulierung fokussierter biologischer
Hypothesen verwenden. Wir demonstrieren dies an einem Leukämiedatensatz.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Pattern Recognition
dc.subject
Classification
dc.subject
Molecular Diagnosis
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
Methodology for exploring and communicating molecular characteristics of
disease
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Peter Martus
dc.date.accepted
2006-12-11
dc.date.embargoEnd
2007-01-30
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000002668-3
dc.title.translated
Methodik zum Erkennen und zur Kommunikation molekularer Krankheitssignaturen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000002668
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2007/51/
refubium.mycore.derivateId
FUDISS_derivate_000000002668
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access