High-Throughput-Technologien stellen einen Durchbruch in der experimentellen Molekularbiologie dar. Sie ermöglichen eine Einsicht in die molekularen Mechanismen der Zelle, die mit traditionellen Ansätzen nicht zu erforschen sind. Mithilfe von differenzierten statistischen und computergestützen Methoden können wertvolle Informationen aus diesen Datensätzen gezogen werden. Clustering ist der am häufigsten gebrauchte Ansatz, um in solchen Hochdurchsatzdaten Gensätze mit verwandten Funktionen zu entdecken. Traditionelle Clustering-Methoden wie das hierarchische Clustering und k-means haben jedoch ihre Grenzen. Erstens basieren sie auf der Annahme, dass sich ein Gencluster in allen Proben gleich verhält. Es ist aber auch möglich, dass ein zellulärer Prozess nur eine Teilmenge der Gene beeinflußt oder dass er nur unter bestimmten Bedingungen seine Wirkung entfaltet. Zweitens wird in traditionellen Clusteriung-Methoden jedes einzelne Gen einem einzigen Cluster zugeteilt, obwohl manche Gene in bestimmten Proben nicht aktiv, andere dagegen in mehrere Prozesse involviert sind. Biclustering überwindet diese Schwierigkeiten, weil dabei Gene und Proben gleichzeitig gruppiert werden. Neue Studien haben gezeigt, dass Biclustering ein großes Potential für die Entdeckung von Markergenen hat, die mit bestimmten Geweben oder Krankheiten assoziiert sind. Mehrere Biclustering-Algorithmen existieren, aber es ist immer noch schwierig, Bicluster zu finden, deren Signifikanz biologisch validiert ist. Zusätzlich ist es nötig, einen Biclustering-Algorithmus zu finden, der in der Lage ist, sehr große Datensätze innerhalb kurzer Zeit zu analysieren. Der erste Teil dieser Doktorarbeit beschäftigt sich mit Biclustering-Algorithmen. Wir schlagen einen neuen, schnellen Biclustering- Algorithmus speziell für die Analyse von großen Datensätzen vor. Der Algorithmus findet Bicluster, in denen jedes Gen im Vergleich zu den übrigen Proben in allen Biclusterproben hoch oder niedrig exprimiert ist. Im Gegensatz zu anderen Algorithmen muss die Anzahl der Bicluster nicht a priori definiert werden. Anhand synthetischer und biologischer Datensätze vergleichen wir unsere Methode mit andere Biclustering-Algorithmen. GO term und TFBS- Anreicherung zeigen, dass der DeBi-Algorithmus biologisch signifikante Bicluster identifiziert. Wir zeigen auch, dass der Algorithmus nützlich und leistungsstark in der Analyse großer Datensätze ist. Die Methode kann auf Expressionsdatensätze aus verschiedenen Laboren und von unterschiedlichen Plattformen angewandt werden. Wir hoffen, dass unsere Methode die Entwicklung des Biclustering als Werkzeug für die Datenanalyse in der funktionellen Genomik vorantreiben und unterstützen wird. Der zweite Teil der Doktorarbeit beschäftigt sich mit der Aufklärung von molekularen Mechanismen in der traditionellen chinesischen Medizin (TCM), sowie mit der Identifi¬kation neuer Kandidaten aus traditionellen chinesischen Heilmitteln für die Entwicklung neuer Medikamente. Für diese Zwecke werden gene set enrichment tools und Biclustering eingesetzt. Weiterhin wurde Datenbank namens Medicinal Connectivity of TCM, MecoTCM, etabliert, welches systematische Verbindungen zwischen Genexpression, Krankheitsstatus und biochemischer Aktivität aufbaut. Dadurch gelang es, biologisch relevante Informationen über die TCM-Theorie zu finden, zum Beispiel über die Pflanze Ginseng. Unsere Ergebnisse wurden mit Chip-Seq-Experimenten validiert. Künftig soll dieser Datensatz durch die Integration von Tumorgenexpressionsprofilen verbessert werden.
High throughput technologies are the latest breakthroughs in experimental molecular biology. These technologies provide insight into the molecular mechanism of the cell which was impossible to study with traditional approaches. However, sophisticated statistical and computational methods are required to extract useful information from these datasets. The most common approach for detecting functionally related gene sets from such high throughput data is clustering. Traditional clustering methods like hierarchical clustering and k-means, have several limitations. Firstly, they are based on the assumption that a cluster of genes behaves similarly in all samples. However, a cellular process may affect a subset of genes, only under certain conditions. Secondly, clustering assigns each gene or sample to a single cluster. However, some genes may not be active in any of the samples and some genes may participate in multiple processes. Biclustering overcomes these limitations by grouping genes and samples simultaneously. Recent studies showed that biclustering has a great potential in detecting marker genes that are associated with certain tissues or diseases. Several biclustering algorithms have been proposed. However, it is still a challenge to find biclusters that are significant based on biological validation measures. Additionally, there is a need for a biclustering algorithm that is capable of analyzing very large datasets in reasonable time. The first part of the thesis focuses on biclustering algorithms. We propose a novel fast biclustering algorithm especially for analyzing large data sets. Our algorithm aims to find biclusters where each gene in a bicluster should be highly or lowly expressed over all the bicluster samples compared to the rest of the samples. Unlike other algorithms, it is not required to define the number of biclusters apriori. We compare our method with other biclustering algorithms using synthetic data and biological data. It is shown that the DeBi algorithm provides biologically significant biclusters using GO term and TFBS enrichment. We also present the computational efficiency of our algorithm. It is a useful and powerful tool in analyzing large data sets. The method is also applicable on multiple gene expression datasets coming from different coming from different labs or platforms. The hope is that our method will further contribute to establishing biclustering as a general purpose tool for data analysis in functional genomics. In the second part of the thesis, we aim to contribute to: (1) the elucidation of the molecular mechanism of Traditional Chinese Medicine (TCM) functions, (2) the identification of new drug candidates from TCM against different human disease, by using gene set enrichment tools and biclustering. In this regard, we establish a research network called Medicinal Connectivity of TCM, MecoTCM, in which the systematic connections is created among gene expression, disease status, and bioactive chemicals. Using our approach, we discovered biologically significant findings about TCM theory, for example on herb Ginseng. We further validated our results using Chip-Seq experiments. We plan to further upgrade this dataset by comparisons to existing tumor gene expression profiles, in an attempt to match tumor profiles and TCM treatment profiles in terms of the affected pathways.