Clustering is a crucial first step in the exploratory analysis of biological data. This thesis is concerned with cluster analysis of biological data using mixture models. Mixture models is a class of powerful and versatile statistical models. We develop an extension to the conventional mixtures in form of the context-specific independence (CSI) framework. CSI mixtures are particularly suited for the analysis of biological data since they perform robustly in the presence of noise and uninformative features in the data. This is achieved by adapting the model complexity to the degree of variation observed in a given data set. We present a learning algorithm for CSI mixtures in a Bayesian framework. We apply CSI mixture clustering on data sets of transcription factor binding sites, protein sequences and complex disease phenotype data.
Das automatische Unterteilen eines Datensatzes in Gruppen von ähnlichen Dateneinträgen mittels Clustering, ist ein zentraler Schritt in der Erstanalyse von biologischen Daten. Diese Arbeit beschäftigt sich mit dem Clustering von biologischen Daten mit Hilfe von Mischmodellen. Mischmodelle weisen eine Reihe von erstrebenswerten Eigenschaften auf. Sie sind flexible in der Abbildung verschiedener Datensätze, erlauben effiziente Parameterschätzung und sind robust gegenüber verrauschten Daten. Im Rahmen dieser Arbeit entwickeln wir die "kontext-spezifische Unabhängigkeit" (engl. CSI) Erweiterung des Mischmodell Formalismus'. Die CSI Erweiterung erlaubt die automatische Anpassung der Modell-Komplexität an die Variabilität eines gegebenen Datensatzes. Dies macht CSI Modelle insbesondere nützlich für die Anwendung auf biologische Daten. Wir beschreiben Ergebnisse von der Anwendung der Methode für die Analyse per Clustering von Transkriptionsfaktorenbindestellen, Proteinsequenzen und Herzkrankheitsphänotypdaten.