dc.contributor.author
Gesteira Costa Filho, Ivan
dc.date.accessioned
2018-06-07T14:33:09Z
dc.date.available
2008-06-03T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/64
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-4268
dc.description
0\. Title page and table of contents
1\. Introduction 1
2\. Finite Mixture Models 9
3\. Mixture Models and Clustering 21
4\. Analysis of Gene Expression Time Courses 33
5\. Analysis of Gene Expression in Lymphoid Developmen 57
6\. Clustering with Constraints for Integration of Heterogeneous Biological
Data 89
7\. Discussion 115
Bibliography 119
Erklärung
dc.description.abstract
The main focus of this thesis is the problem of finding groups of co-expressed
genes from data obtained in DNA microarray experiments. As we assume co-
expressed genes to: (1) perform related functional task, and (2) be regulated
by the same transcription regulation program, such an analysis is helpful in
identifying the biological function and the regulatory roles of genes. One
traditional approach for finding co-expressed genes is the use of clustering
methods. In this thesis, we use mixture models as a statistical formalism for
clustering gene expression data. Mixture models are robust to noise, can model
uncertainty about cluster assignments, allow the inclusion of prior knowledge,
such as intrinsic dependencies of the experimental design, and offer a
flexible framework for integration of additional biological data. In Chapter
2, we introduce the mixture model formalism. Then, in Chapter 3, we describe
how mixture models can be used to solve the clustering problem, and how
questions as choosing the number of clusters and cluster validation can be
answered in the context of mixture models. Additionally, in Chapter 3 we
propose a novel external index for validating clusterings computed by
mixtures. Mixture models allow, with a proper choice of component models, to
make explicit assumptions about the data. We propose here two novel types of
components models for analyzing gene expression. The use of hidden Markov
models with linear topologies to analyze gene expression time courses will be
the focus of Chapter 4. With a benchmark data set, we show that mixture of
HMMs have better class recovery than other methods proposed for time course
analysis. In Chapter 5, we propose a new type of probabilistic model,
dependence trees, to model gene expression profiles during a developmental
process. We also explore the benefits of using priors of model parameters to
obtain maximum-a-posteriori point estimates, and show how this improves the
robustness of the method. For data collected in lymphoid development, mixtures
of dependence trees compare favorably to other methods used for finding groups
of co-expressed genes. Furthermore, by incorporating microRNA binding data, we
identify promising novel regulatory roles of genes and their functional
assignments. We propose in Chapter 6 an extension of the mixture model
estimation. This semi-supervised learning can integrate additional biological
data and improve clusterings of gene expression time-courses. We propose a
novel method, which combines gene expression time-courses with spatial
patterns of gene expression in Drosophila embryos, for finding groups of syn-
expressed genes. Our results demonstrate that the cluster results, obtained
after integrating additional data, demonstrate a better recovery of syn-
expressed genes then cluster results obtained with the gene expression data
alone.
de
dc.description.abstract
Die vorliegende Dissertation befasst sich mit der Erkennung von Gruppen
koexprimierter Gene aus Daten, die durch DNA-Microarray Experimente gewonnen
wurden. Da wir annehmen, dass koexprimierte Gene (1) ähnliche funktionale
Aufgaben erfüllen und (2) durch die gleichen Transkriptionsmechanismen
reguliert werden, ist eine solche Analyse hilfreich bei der Erkennung der
biologischen Funktion und der regulatorischen Mechanismen von Genen. Ein
traditioneller Ansatz zur Erkennung koexprimierter Gene ist die Anwendung von
Clustermethoden. In der vorliegenden Dissertation verwenden wir Mischmodelle
als statistischen Formalismus, um Genexpressionsdaten zu clustern.
Mischmodelle sind robust gegenüber Rauschen, können Unsicherheiten bezüglich
Clusterzuordnungen abbilden, ermöglichen die Einbeziehung von a priori Wissen,
z.B. über durch den Experimentaufbau bedingte intrinsische Abhängigkeiten, und
bieten einen flexiblen Rahmen für die Integration zusätzlicher biologischer
Daten. In Kapitel 2 führen wir den Formalismus des Mischmodells ein. In
Kapitel 3 beschreiben wir dann, auf welche Art Mischmodelle für die
Durchführung von Clusteranalysen genutzt werden können und wie Fragen, die die
Clusteranzahl und die Validierung der Clusterung im Kontext der Mischmodelle
betreffen, beantwortet werden können. Desweiteren schlagen wir in Kapitel 3
einen neuartigen externen Index für die Validierung von mittels Mischmodellen
berechneten Clustern vor. Mit Hilfe von Mischmodellen kann man unter Anwendung
geeigneter Komponentenmodelle, explizite Annahmen über die Daten abbilden. Wir
schlagen hier zwei neuartige Typen von Komponentenmodellen für die Analyse von
Genexpressionsdaten vor. Die Anwendung von Hidden-Markov-Modellen mit linearer
Topologie für die Analyse von Genexpression-Zeitreihen stellt den Schwerpunkt
des 4. Kapitels dar. Mittels eines Benchmark-Datensatzes zeigen wir, dass eine
Mischung von Hidden-Markov-Modellen bessere Ergebnisse liefert als andere für
die Zeitreihenanalyse vorgeschlagene Methoden. In Kapitel 5 schlagen wir eine
neue Art eines Wahrscheinlichkeitsmodells vor: Abhängigkeitsbäume, mit deren
Hilfe Genexpressionionsprofile während eines Entwicklungsprozesses dargestellt
werden können. Wir untersuchen ebenfalls die Vorteile der Verwendung von A
-Priori-Wahrscheinlichkeiten für Modellparameter, um Maximum-A-Posteriori
Punktschätzer zu erhalten, und zeigen, wie dies die Robustheit der Methode
verbessern kann. Für aus der Blutzelle-Entwicklung gewonnene Daten schneiden
Mischungen von Abhängigkeitsbäumen besser ab als andere Methoden, die für das
Erkennen von koex-primierten Genen genutzt werden. Desweiteren ermöglicht uns
die Einbeziehung von microRNA Daten die Identifizierung neuer und
vielversprechender regulatorischer Aufgaben von Genen sowie deren Funktionen.
In Kapitel 6 schlagen wir eine Ausweitung der Mischmodellschätzung vor. Das
halbüberwachte Lernen kann zusätzliche biologische Daten integrieren und das
Clustern von Genexpressions-Zeitreihen verbessern. Wir schlagen einen neuen
Ansatz vor, der Zeitreihen mit räumlichen Mustern der Genexpression in
Drosophila-Embryonen verbindet, um Gruppen von synexprimierten Genen zu
finden. Unsere Ergebnisse zeigen, dass sich die Ergebnisse der Clusterung, die
wir durch die Integration zusätzlicher Daten gewonnen haben, im Vergleich zur
Clusterung unter ausschliesslicher Benutzung von Genexpressionsdaten, durch
eine bessere Erkennung synexprimierter Gene auszeichnen.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
mixture models
dc.subject
gene expression
dc.subject
hidden Markov models
dc.subject
dependence trees
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Mixture Models for the Analysis of Gene Expression
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Joachim Selbig
dc.date.accepted
2008-05-29
dc.date.embargoEnd
2008-06-03
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000003441-2
dc.title.subtitle
Integration of Multiple Experiments and Cluster Validation
dc.title.translated
Mischmodelle für die Analyse von Genexpression
de
dc.title.translatedsubtitle
Integration multipler Experimente und Validierung von Clustern
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000003441
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2008/345/
refubium.mycore.derivateId
FUDISS_derivate_000000003441
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access