The main focus of this thesis is the problem of finding groups of co-expressed genes from data obtained in DNA microarray experiments. As we assume co- expressed genes to: (1) perform related functional task, and (2) be regulated by the same transcription regulation program, such an analysis is helpful in identifying the biological function and the regulatory roles of genes. One traditional approach for finding co-expressed genes is the use of clustering methods. In this thesis, we use mixture models as a statistical formalism for clustering gene expression data. Mixture models are robust to noise, can model uncertainty about cluster assignments, allow the inclusion of prior knowledge, such as intrinsic dependencies of the experimental design, and offer a flexible framework for integration of additional biological data. In Chapter 2, we introduce the mixture model formalism. Then, in Chapter 3, we describe how mixture models can be used to solve the clustering problem, and how questions as choosing the number of clusters and cluster validation can be answered in the context of mixture models. Additionally, in Chapter 3 we propose a novel external index for validating clusterings computed by mixtures. Mixture models allow, with a proper choice of component models, to make explicit assumptions about the data. We propose here two novel types of components models for analyzing gene expression. The use of hidden Markov models with linear topologies to analyze gene expression time courses will be the focus of Chapter 4. With a benchmark data set, we show that mixture of HMMs have better class recovery than other methods proposed for time course analysis. In Chapter 5, we propose a new type of probabilistic model, dependence trees, to model gene expression profiles during a developmental process. We also explore the benefits of using priors of model parameters to obtain maximum-a-posteriori point estimates, and show how this improves the robustness of the method. For data collected in lymphoid development, mixtures of dependence trees compare favorably to other methods used for finding groups of co-expressed genes. Furthermore, by incorporating microRNA binding data, we identify promising novel regulatory roles of genes and their functional assignments. We propose in Chapter 6 an extension of the mixture model estimation. This semi-supervised learning can integrate additional biological data and improve clusterings of gene expression time-courses. We propose a novel method, which combines gene expression time-courses with spatial patterns of gene expression in Drosophila embryos, for finding groups of syn- expressed genes. Our results demonstrate that the cluster results, obtained after integrating additional data, demonstrate a better recovery of syn- expressed genes then cluster results obtained with the gene expression data alone.
Die vorliegende Dissertation befasst sich mit der Erkennung von Gruppen koexprimierter Gene aus Daten, die durch DNA-Microarray Experimente gewonnen wurden. Da wir annehmen, dass koexprimierte Gene (1) ähnliche funktionale Aufgaben erfüllen und (2) durch die gleichen Transkriptionsmechanismen reguliert werden, ist eine solche Analyse hilfreich bei der Erkennung der biologischen Funktion und der regulatorischen Mechanismen von Genen. Ein traditioneller Ansatz zur Erkennung koexprimierter Gene ist die Anwendung von Clustermethoden. In der vorliegenden Dissertation verwenden wir Mischmodelle als statistischen Formalismus, um Genexpressionsdaten zu clustern. Mischmodelle sind robust gegenüber Rauschen, können Unsicherheiten bezüglich Clusterzuordnungen abbilden, ermöglichen die Einbeziehung von a priori Wissen, z.B. über durch den Experimentaufbau bedingte intrinsische Abhängigkeiten, und bieten einen flexiblen Rahmen für die Integration zusätzlicher biologischer Daten. In Kapitel 2 führen wir den Formalismus des Mischmodells ein. In Kapitel 3 beschreiben wir dann, auf welche Art Mischmodelle für die Durchführung von Clusteranalysen genutzt werden können und wie Fragen, die die Clusteranzahl und die Validierung der Clusterung im Kontext der Mischmodelle betreffen, beantwortet werden können. Desweiteren schlagen wir in Kapitel 3 einen neuartigen externen Index für die Validierung von mittels Mischmodellen berechneten Clustern vor. Mit Hilfe von Mischmodellen kann man unter Anwendung geeigneter Komponentenmodelle, explizite Annahmen über die Daten abbilden. Wir schlagen hier zwei neuartige Typen von Komponentenmodellen für die Analyse von Genexpressionsdaten vor. Die Anwendung von Hidden-Markov-Modellen mit linearer Topologie für die Analyse von Genexpression-Zeitreihen stellt den Schwerpunkt des 4. Kapitels dar. Mittels eines Benchmark-Datensatzes zeigen wir, dass eine Mischung von Hidden-Markov-Modellen bessere Ergebnisse liefert als andere für die Zeitreihenanalyse vorgeschlagene Methoden. In Kapitel 5 schlagen wir eine neue Art eines Wahrscheinlichkeitsmodells vor: Abhängigkeitsbäume, mit deren Hilfe Genexpressionionsprofile während eines Entwicklungsprozesses dargestellt werden können. Wir untersuchen ebenfalls die Vorteile der Verwendung von A -Priori-Wahrscheinlichkeiten für Modellparameter, um Maximum-A-Posteriori Punktschätzer zu erhalten, und zeigen, wie dies die Robustheit der Methode verbessern kann. Für aus der Blutzelle-Entwicklung gewonnene Daten schneiden Mischungen von Abhängigkeitsbäumen besser ab als andere Methoden, die für das Erkennen von koex-primierten Genen genutzt werden. Desweiteren ermöglicht uns die Einbeziehung von microRNA Daten die Identifizierung neuer und vielversprechender regulatorischer Aufgaben von Genen sowie deren Funktionen. In Kapitel 6 schlagen wir eine Ausweitung der Mischmodellschätzung vor. Das halbüberwachte Lernen kann zusätzliche biologische Daten integrieren und das Clustern von Genexpressions-Zeitreihen verbessern. Wir schlagen einen neuen Ansatz vor, der Zeitreihen mit räumlichen Mustern der Genexpression in Drosophila-Embryonen verbindet, um Gruppen von synexprimierten Genen zu finden. Unsere Ergebnisse zeigen, dass sich die Ergebnisse der Clusterung, die wir durch die Integration zusätzlicher Daten gewonnen haben, im Vergleich zur Clusterung unter ausschliesslicher Benutzung von Genexpressionsdaten, durch eine bessere Erkennung synexprimierter Gene auszeichnen.