dc.contributor.author
Georgi, Benjamin
dc.date.accessioned
2018-06-07T21:59:59Z
dc.date.available
2009-06-17T10:50:13.319Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/8733
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-12932
dc.description.abstract
Clustering is a crucial first step in the exploratory analysis of biological
data. This thesis is concerned with cluster analysis of biological data using
mixture models. Mixture models is a class of powerful and versatile
statistical models. We develop an extension to the conventional mixtures in
form of the context-specific independence (CSI) framework. CSI mixtures are
particularly suited for the analysis of biological data since they perform
robustly in the presence of noise and uninformative features in the data. This
is achieved by adapting the model complexity to the degree of variation
observed in a given data set. We present a learning algorithm for CSI mixtures
in a Bayesian framework. We apply CSI mixture clustering on data sets of
transcription factor binding sites, protein sequences and complex disease
phenotype data.
de
dc.description.abstract
Das automatische Unterteilen eines Datensatzes in Gruppen von ähnlichen
Dateneinträgen mittels Clustering, ist ein zentraler Schritt in der
Erstanalyse von biologischen Daten. Diese Arbeit beschäftigt sich mit dem
Clustering von biologischen Daten mit Hilfe von Mischmodellen. Mischmodelle
weisen eine Reihe von erstrebenswerten Eigenschaften auf. Sie sind flexible in
der Abbildung verschiedener Datensätze, erlauben effiziente Parameterschätzung
und sind robust gegenüber verrauschten Daten. Im Rahmen dieser Arbeit
entwickeln wir die "kontext-spezifische Unabhängigkeit" (engl. CSI)
Erweiterung des Mischmodell Formalismus'. Die CSI Erweiterung erlaubt die
automatische Anpassung der Modell-Komplexität an die Variabilität eines
gegebenen Datensatzes. Dies macht CSI Modelle insbesondere nützlich für die
Anwendung auf biologische Daten. Wir beschreiben Ergebnisse von der Anwendung
der Methode für die Analyse per Clustering von
Transkriptionsfaktorenbindestellen, Proteinsequenzen und
Herzkrankheitsphänotypdaten.
de
dc.format.extent
XII, 124 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
mixture models
dc.subject
context-specific independence
dc.subject
transcription factors
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Context-specific independence mixture models for cluster analysis of
biological data
dc.contributor.contact
georgi@molgen.mpg.de
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Jörg Schultz
dc.date.accepted
2009-06-10
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000010608-7
dc.title.translated
Kontext-spezifische Unabhängigkeits-Mischmodelle für die Cluster-Analyse von
biologischen Daten
en
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000010608
refubium.mycore.derivateId
FUDISS_derivate_000000005763
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access