dc.contributor.author
Clevert, Djork-Arné
dc.date.accessioned
2018-06-08T00:30:03Z
dc.date.available
2012-08-27T09:57:00.485Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12029
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-16227
dc.description.abstract
Motivation: Kosteneffiziente Microarrays, wie der Affymetrix SNP 6.0 und der
Human Gene 1.1 ST, sind noch immer die vorherrschende
Hochdurchsatztechnologie, um DNA-Copy Number Variations (CNVs), bzw. die
Aktivität der Genexpression zu untersuchen. Microarraymessungen werden durch
eine Vielzahl von Störgrößen (Kreuzhybridisierung, RNA/DNA-Degradation,
Effizienz der Transkription, Hybridisierungstemperatur, usw.) beeinflusst und
weisen daher ein hohes Messrauschen auf. Diese zufällige Variabilität der
Microarraydaten ist in zweifacher Hinsicht problematisch, erstens können
schwache Signale im Messrauschen nicht mehr detektiert werden und zweitens
können Fluktuationen im Messrauschen zu Scheinkorrelationen mit dem
beobachteten Phänotyp führen. Für die quantitative Analyse der Genexpression,
bzw. von CNVs bedeutet dies unter anderem, dass die Aktivität der
Genexpression bzw. die Kopienzahl einer CNV-Region fehlerhaft geschätzt wird.
Diese fehlerhaften Ergebnisse werden jedoch beim Korrigieren für multiples
Testen (z.B. Bonferoni-Korrektur) berücksichtigt, und schwächen somit die
Power einer Studie. Die Essenz von fünf wissenschaftlichen Artikeln, über die
eingangs erwähnte Problematik bei der Analyse von Microarraydaten, ist in
dieser Publikationspromotion zusammengetragen. Methode: Im Rahmen dieser
Arbeit wurden vier neue Methoden zur Analyse von Microarraydaten entwickelt
und validiert. In (1) „Factor Analysis for Robust Microarray Summarization“
(FARMS) wurde ein multivariates Maximum-a-posteriori Faktorenanalysemodell
entwickelt, welches die quantitative Genexpressionsanalyse verbessert. (2)
„Informative/Non-Informative-calls“ (I/NI-calls) beschreibt ein
informationstheoretisches Filterverfahren, welches es ermöglicht, die für ein
Experiment relevanten Gene zu identifizieren. In (3) Copy-number FARMS
(cn.FARMS) wurden Methoden zur Normalisierung, Summarization und Segmentierung
von SNP-Arraydaten entwickelt und mit bestehenden Methoden verglichen. Während
in (4) „Factor Analysis for Bicluster Acquisition“ (FABIA) eine neue Methode
zum Biclustern von Genexpressionsdaten entwickelt wurde. Ergebnisse: Der
FARMS-Algorithmus wurde hinsichtlich seiner Sensitivität und Spezifität
rigoros ausgetestet und ist seit 2006 die führende Summarizationmethode im
internationalen Affycomp Bench-mark. Das Filterkriterium I/NI-calls wurde auf
mehr als 30 Microarrayexperimenten evaluiert und konnte durchschnittlich 84%
(±1,5%), bzw. in Spike-in Experimenten sogar über 99,5%, der irrelevanten Gene
herausfiltern, ohne dabei ein relevantes Signal zu verlieren. Für die
genomweite Genexpressionsanalyse kann durch den I/NI-call die Anzahl der
Nullhypothesen von ca. 28.000 auf ca. 4.500 reduziert werden und führt nach
Korrektur für multiples Testen zu ca. 6-fach kleineren p-Werten. cn.FARMS
wurde auf HapMap-Daten mit den gängigsten CNV-Analysemethoden verglichen und
konnte den Type-1-Fehler um ca. 20%, bzw. bei geringerer Auflösung um ca. 60%
reduzieren. Konklusion: Die Ergebnisse zeigen, dass Methoden des maschinellen
Lernens zur Auswertung von Microarraydaten sehr gut geeignet sind, um die
quantitative Genexpressionsanalyse zu verbessern, um die statistische Power
einer Studie zu erhöhen, um CNV-Variationen zuverlässig zu entdecken und um
biologisch plausible Bicluster zu identifizieren.
de
dc.description.abstract
Motivation: Cost-effective oligonucleotide arrays like the Affymetrix SNP 6.0
and the Human Gene 1.1 ST are still the predominant technique to measure DNA
copy number variations (CNVs) and gene expression, respectively. However,
microarray data are characterized by high levels of noise induced by DNA
preparation, staining, hybridization or measurement processes. This obscuring
variation can blur out the signal of interest and, even worse, lead to
spurious correlations which misguide the researcher. Thus, methods for
detecting CNVs overestimate both the number and the size of CNV regions, while
methods for gene expression summarization are imprecise regarding the
quantitative analysis. As a consequence suffer both techniques from a high
false discovery rate (FDR), meaning that many findings are wrongly detected
and therefore not associated with the tested condition. These false positives
decrease furthermore the study's discovery power due to the correction for
multiple testing. The core of this thesis consist of five peer-reviewed
scientific publications which treat the before mentioned issues. Methods: Four
probabilistic latent variable models for processing of -omnic data were
developed to tackle the problem of false discoveries and accuracy of the
estimates. (1) Factor Analysis for Robust Microarray Summarization (FARMS) was
developed to provide more accurate gene expression estimates and is based on a
Bayesian maximum a posteriori factor analysis model. (2) The FARMS algorithm
provides further the Informative/Non-Informative (I/NI) call, which is an
unsupervised filtering technique which allows the researcher to identify those
genes that are informative for the interpretation of the experiment. (3) Copy-
number FARMS (cn.FARMS) was purposed to correct for allele specific cross-
hybridization in genotyping data and to estimate DNA copy numbers from
genotyping array data. Whereas (4) "Factor Analysis for Bicluster Acquisition"
(FABIA) was developed for biclustering of -omics data. Results: FARMS has been
rigorous evaluated on all public available spike-in data sets and at the
international Affycomp benchmark, where it outperformed all preexisting
summarization methods both with respect to sensitivity and specificity.
Furthermore, I/NI calls excluded the non-informative probe sets without loss
of sensitivity and specificity. The exclusion rates were in average 84% (+/-
1.5%) on 30 real world data sets and on spiked-in data set even up to 99.5%
while never losing a spiked-in gene. On HapMap data, cn.FARMS clearly
outperformed the two methods which performed best in other comparative studies
on copy number estimation. For single-locus and for 4-loci estimates on SNP
6.0 arrays, cn.FARMS had about 20% less false positives (56,145 FP) than the
second best method (68,593 FP) and about 3.5 times less false positives (366
FP) than next best method (1338 FP), respectively. Conclusion: The results
show, that FARMS-based array preprocessing methods for gene expression
analysis as well as for CNV-detection outperformed its competitors both with
respect to FDR and sensitivity. They further provide a both statistical sound
and objective feature reduction criterion that offers a critical solution to
the curse of high-dimensionality in the analysis of microarray data.
en
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject.ddc
600 Technik, Medizin, angewandte Wissenschaften::610 Medizin und Gesundheit
dc.title
Entwicklung und Vergleich biostatistischer Methoden zur Auswertung von
Microarray Experimenten
dc.contributor.contact
okko@clevert.de
dc.contributor.firstReferee
Prof. Dr. med. P. Reinke
dc.contributor.furtherReferee
Prof. Dr. rer. nat. P. Nürnberg
dc.contributor.furtherReferee
Prof. Dr. med. N. Hübner
dc.date.accepted
2012-09-07
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000037879-7
dc.title.translated
Development and comparison of biostatistical methods for the analysis of
microarray experiments
en
refubium.affiliation
Charité - Universitätsmedizin Berlin
de
refubium.mycore.fudocsId
FUDISS_thesis_000000037879
refubium.mycore.derivateId
FUDISS_derivate_000000011212
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access