Motivation: Kosteneffiziente Microarrays, wie der Affymetrix SNP 6.0 und der Human Gene 1.1 ST, sind noch immer die vorherrschende Hochdurchsatztechnologie, um DNA-Copy Number Variations (CNVs), bzw. die Aktivität der Genexpression zu untersuchen. Microarraymessungen werden durch eine Vielzahl von Störgrößen (Kreuzhybridisierung, RNA/DNA-Degradation, Effizienz der Transkription, Hybridisierungstemperatur, usw.) beeinflusst und weisen daher ein hohes Messrauschen auf. Diese zufällige Variabilität der Microarraydaten ist in zweifacher Hinsicht problematisch, erstens können schwache Signale im Messrauschen nicht mehr detektiert werden und zweitens können Fluktuationen im Messrauschen zu Scheinkorrelationen mit dem beobachteten Phänotyp führen. Für die quantitative Analyse der Genexpression, bzw. von CNVs bedeutet dies unter anderem, dass die Aktivität der Genexpression bzw. die Kopienzahl einer CNV-Region fehlerhaft geschätzt wird. Diese fehlerhaften Ergebnisse werden jedoch beim Korrigieren für multiples Testen (z.B. Bonferoni-Korrektur) berücksichtigt, und schwächen somit die Power einer Studie. Die Essenz von fünf wissenschaftlichen Artikeln, über die eingangs erwähnte Problematik bei der Analyse von Microarraydaten, ist in dieser Publikationspromotion zusammengetragen. Methode: Im Rahmen dieser Arbeit wurden vier neue Methoden zur Analyse von Microarraydaten entwickelt und validiert. In (1) „Factor Analysis for Robust Microarray Summarization“ (FARMS) wurde ein multivariates Maximum-a-posteriori Faktorenanalysemodell entwickelt, welches die quantitative Genexpressionsanalyse verbessert. (2) „Informative/Non-Informative-calls“ (I/NI-calls) beschreibt ein informationstheoretisches Filterverfahren, welches es ermöglicht, die für ein Experiment relevanten Gene zu identifizieren. In (3) Copy-number FARMS (cn.FARMS) wurden Methoden zur Normalisierung, Summarization und Segmentierung von SNP-Arraydaten entwickelt und mit bestehenden Methoden verglichen. Während in (4) „Factor Analysis for Bicluster Acquisition“ (FABIA) eine neue Methode zum Biclustern von Genexpressionsdaten entwickelt wurde. Ergebnisse: Der FARMS-Algorithmus wurde hinsichtlich seiner Sensitivität und Spezifität rigoros ausgetestet und ist seit 2006 die führende Summarizationmethode im internationalen Affycomp Bench-mark. Das Filterkriterium I/NI-calls wurde auf mehr als 30 Microarrayexperimenten evaluiert und konnte durchschnittlich 84% (±1,5%), bzw. in Spike-in Experimenten sogar über 99,5%, der irrelevanten Gene herausfiltern, ohne dabei ein relevantes Signal zu verlieren. Für die genomweite Genexpressionsanalyse kann durch den I/NI-call die Anzahl der Nullhypothesen von ca. 28.000 auf ca. 4.500 reduziert werden und führt nach Korrektur für multiples Testen zu ca. 6-fach kleineren p-Werten. cn.FARMS wurde auf HapMap-Daten mit den gängigsten CNV-Analysemethoden verglichen und konnte den Type-1-Fehler um ca. 20%, bzw. bei geringerer Auflösung um ca. 60% reduzieren. Konklusion: Die Ergebnisse zeigen, dass Methoden des maschinellen Lernens zur Auswertung von Microarraydaten sehr gut geeignet sind, um die quantitative Genexpressionsanalyse zu verbessern, um die statistische Power einer Studie zu erhöhen, um CNV-Variationen zuverlässig zu entdecken und um biologisch plausible Bicluster zu identifizieren.
Motivation: Cost-effective oligonucleotide arrays like the Affymetrix SNP 6.0 and the Human Gene 1.1 ST are still the predominant technique to measure DNA copy number variations (CNVs) and gene expression, respectively. However, microarray data are characterized by high levels of noise induced by DNA preparation, staining, hybridization or measurement processes. This obscuring variation can blur out the signal of interest and, even worse, lead to spurious correlations which misguide the researcher. Thus, methods for detecting CNVs overestimate both the number and the size of CNV regions, while methods for gene expression summarization are imprecise regarding the quantitative analysis. As a consequence suffer both techniques from a high false discovery rate (FDR), meaning that many findings are wrongly detected and therefore not associated with the tested condition. These false positives decrease furthermore the study's discovery power due to the correction for multiple testing. The core of this thesis consist of five peer-reviewed scientific publications which treat the before mentioned issues. Methods: Four probabilistic latent variable models for processing of -omnic data were developed to tackle the problem of false discoveries and accuracy of the estimates. (1) Factor Analysis for Robust Microarray Summarization (FARMS) was developed to provide more accurate gene expression estimates and is based on a Bayesian maximum a posteriori factor analysis model. (2) The FARMS algorithm provides further the Informative/Non-Informative (I/NI) call, which is an unsupervised filtering technique which allows the researcher to identify those genes that are informative for the interpretation of the experiment. (3) Copy- number FARMS (cn.FARMS) was purposed to correct for allele specific cross- hybridization in genotyping data and to estimate DNA copy numbers from genotyping array data. Whereas (4) "Factor Analysis for Bicluster Acquisition" (FABIA) was developed for biclustering of -omics data. Results: FARMS has been rigorous evaluated on all public available spike-in data sets and at the international Affycomp benchmark, where it outperformed all preexisting summarization methods both with respect to sensitivity and specificity. Furthermore, I/NI calls excluded the non-informative probe sets without loss of sensitivity and specificity. The exclusion rates were in average 84% (+/- 1.5%) on 30 real world data sets and on spiked-in data set even up to 99.5% while never losing a spiked-in gene. On HapMap data, cn.FARMS clearly outperformed the two methods which performed best in other comparative studies on copy number estimation. For single-locus and for 4-loci estimates on SNP 6.0 arrays, cn.FARMS had about 20% less false positives (56,145 FP) than the second best method (68,593 FP) and about 3.5 times less false positives (366 FP) than next best method (1338 FP), respectively. Conclusion: The results show, that FARMS-based array preprocessing methods for gene expression analysis as well as for CNV-detection outperformed its competitors both with respect to FDR and sensitivity. They further provide a both statistical sound and objective feature reduction criterion that offers a critical solution to the curse of high-dimensionality in the analysis of microarray data.