dc.contributor.author
Łuksza, Marta
dc.date.accessioned
2018-06-08T01:33:52Z
dc.date.available
2012-02-09T12:30:02.407Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/13530
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-17728
dc.description.abstract
Clustering, which involves dividing data elements into classes based on their
observed properties, is one of the main tools in exploratory data analysis. It
is used widely in the analysis of gene expression, where one searches for
structures related to the underlying biological mechanisms. Clusters of gene
expression patterns are a signature of a common regulatory process of the
involved genes. Clusters of experimental conditions, e.g. tissues in an
organism, imply similar states of cell differentiation. The latter property is
used in the tumour sample classification. This thesis establishes a
statistical grounding for cluster analysis in high-dimensional data. The
methods used in the thesis are strongly influenced by solutions from the field
of statistical mechanics. The basic concepts and computational methods of
statistical mechanics are summarised in Chapter 2. In Chapter 3, we propose
probabilistic models for vectors in high-dimensional real space. Motivated by
the characteristics of gene expression data, we discuss different properties
defining a cluster: point density, positional bias, and directional density
(defined in Chapter 3). These properties are related to different choices of a
similarity measure and of a background distribution for unclustered vectors.
We consider several combinations of such background distributions and
similarity measures, and we arrive at well-defined scoring schemes for
clusters. Clusters in data usually arise due to an underlying functional
mechanism. However, even unrelated vectors drawn from the background
distribution can form agglomerations which by chance resemble clusters and
yield high cluster scores. In Chapter 4, we address the problem of the
statistical significance of clusters. For the scoring schemes proposed in
Chapter 3, we compute the cluster score p-value, which tells how likely it is
to observe a group of random vectors with the same or higher score. Our
analytical solution is based on a mapping to a problem from the statistical
mechanics of disordered systems. In an application to yeast gene expression
data, we show that the cluster score p-value is in agreement with the
biological significance of clustered genes, as measured by enrichment of
considered clusters in gene ontology terms (i.e. known functional annotations
of genes). In Chapter 5, we focus on another important aspect of the
statistics of high-dimensional data: dependencies between vector components.
Such dependencies are prevalent in gene expression data, for example between
subsequent time points in time-course experiments. Correct estimation of such
dependencies is crucial both for clustering of experimental conditions, and
for computation of similarities of gene expression vectors. Here, we show that
the estimation of vector-component dependencies requires accounting for an
important confounding factor: the presence of clusters of data vectors. We
propose a mixture-model-based inference method, which disentangles the
spurious effect of clusters from the true signal. We successfully apply our
method to the problem of tumour sample classification. In Chapter 6, we
propose the significance-based clustering algorithm. The algorithm seeks the
best representation of data as a mixture of the background and of clusters
characterised by a statistically significant score. In the implementation of
this approach, we draw from all concepts discussed in the preceding chapters
of this thesis: In the process of finding clusters of vectors, the algorithm
estimates the metric which accounts for dependencies between components of the
vectors. Further, using the probabilistic framework of the mixture-model, it
assigns low prior probability, and effectively penalises, clusters with high
cluster score p-value. In application to gene-expression data of yeast and
human, we show that the significance-constraint improves the biological
significance of resulting clusters.
de
dc.description.abstract
Clustering, das Gruppieren von Datenpunkten aufgrund ihrer beobachteten
Eigenschaften, ist eines der wichtigsten Werkzeuge in der Datenanalyse. Es
wird haeufig in der Analyse von Genexpressionsdaten verwendet, um Gene zu
identifizieren, die aehnliche biologischen Funktionen haben. Cluster von
Genexpressionsmustern lassen oft auf einen gemeinsamen regulatorischen Prozess
der beteiligten Gene schliessen. Cluster von experimentellen Bedingungen, z.B.
von unterschiedlichen Geweben in einem Organismus, sind ein Hinweis auf einen
aehnlichen Zustand der Zelldifferenzierung. Die zuletzt genannte Eigenschaft
wird haeufig zur Klassifikation von Tumordaten verwendet. Diese Dissertation
etabliert statistische Grundlagen fuer Clustering in hochdimensionalen Daten.
Die neu eingefuehrten Methoden basieren zu grossen Teilen auf Erkenntnissen
der statistischen Mechanik. Zuerst werden deshalb in Kapitel 2 grundlegende
Konzepte und Algorithmen der statistischen Mechanik eingefuehrt. In Kapitel 3
wird ein neues probabilistisches Model fuer Cluster im hochdimensionalen
realen Raum vorgeschlagen. Motiviert durch die Merkmale von
Genexpressionsdaten werden verschiedene Observablen eines Clusters definiert:
Punktdichte, Positions-Bias und Richtungsdichte. Diese Observablen messen in
verschiedener Weise Aehnlichkeiten zwischen Datenpunkten und beschreiben die
Hintergrundverteilung zufaelliger Datenpunkte. Daraus wird eine sogenannte
Score-Funktionen fuer Cluster abgeleitet. Obwohl Gene mit aehnlicher Funktion
mit hoher Wahrscheinlichkeit Cluster in Genexpressionsdaten bilden, koennen
auch zufaellig verteilte Datenvektoren Cluster bilden und hohe Cluster-Scores
erhalten. In Kapitel 4 wird deshalb die statistische Signifikanz fuer Cluster
behandelt. Fuer die Score-Funktionen aus Kapitel 3 werden Verfahren zur
Berechnung eines sogenannten p-Wertes vorgestellt. Der Funktion p(S) gibt die
Wahrscheinlickeit an, dass Zufallsvektoren einen Cluster-Score von mindestens
S erhalten. Dieses Problem wir mit Methoden der statistischen Mechanik
ungeordenter Systeme behandelt, die zu einer analytischen Loesung fuehren. In
einer Anwendung auf Genexpressionsdaten aus Hefe wird gezeigt, dass Cluster-
Scores p-Werte biologische Signifikanz von co-exprimierten Genen
widerspiegeln; die biologische Signifikanz wird hierbei durch Gen-Ontologie-
Parameter in den betrachteten Clustern gemessen. Dies zeigt, dass Gene mit
aehnlichen biologischen Funktionen in der Tat als signifikante Cluster
identifiert werden. In Kapitel 5 wird ein weiterer wichtiger Aspekt
statistischer Methoden fuer hochdimensionale Daten behandelt: Abhaengigkeiten
zwischen Vektorkomponenten. Solche Abhaengigkeiten sind haeufig in
Genexpressiondaten zu finden, beispielweise verursacht durch zeitlich
aufeinanderfolgende Experimente im Rahmen von Zeitreihenexperimenten. Eine
korrekte Abschaetzung solcher Abhaengigkeiten ist sowohl fuer das Clustering
von experimentellen Bedingungen als auch zur Berechnung der Aehnlichkeiten von
Genen von entscheidender Bedeutung. Fuer die Abschaetzung von Abhaengigkeiten
von Vektorkomponenten ist die Beruecksichtigung eines wichtigen Stoerfaktors
notwendig: das Vorhandensein von Clustern von Datenvektoren. Wir schlagen eine
Inferenzmethode basierend auf einer Mischverteilung vor, welche das zufaellige
Auftreten von Clustern vom wahren Signal trennt. In unserem Ansatz verwenden
wir die probabilistischen Modelle fuer Cluster aus Kapitel 3. Wir wenden diese
Methode auf das Problem der Tumorprobenklassifizierung an. In Kapitel 6 wird
der Algorithmus zur Berechnung von signifikanzbasiertem Clustering
vorgestellt. Der Algorithmus sucht die beste Zerlegung der Daten als Mischung
von zufaelligen Datenvektoren (aus der Hintergrundverteilung) und statistisch
signifikanten Clustern im Sinne unserer Theorie. Beim Auffinden von Clustern
von Datenvektoren schaetzt der Algorithmus ab, welches Aehnlichkeitsmass die
Abhaengigkeiten zwischen Vektorkomponenten am besten bescheibt. Des weiteren
erlaubt die probabilistische Mischverteilung die Verwendung von
Ausgangwahrscheinlichkeiten, die Cluster mit grossen p-Werten bestraft. In
einer Anwendung auf Genexpressionsdaten von Hefe und Mensch wird gezeigt, dass
dieser Mischverteilungs-Ansatz die biologische Signifikanz der erhaltenen
Cluster erhoeht.
de
dc.format.extent
IV, 138 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
significance analysis
dc.subject
gene expression
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.title
Cluster statistics and gene expression analysis
dc.contributor.contact
luksza@molgen.mpg.de
dc.contributor.firstReferee
Martin Vingron
dc.contributor.furtherReferee
Johannes Berg
dc.date.accepted
2011-07-15
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000035462-5
dc.title.translated
Cluster-Statistik und Genexpressionanalyse
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000035462
refubium.mycore.derivateId
FUDISS_derivate_000000010491
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access