dc.contributor.author
Serin, Akdes
dc.date.accessioned
2018-06-08T01:06:54Z
dc.date.available
2012-01-13T12:48:13.532Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12952
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-17150
dc.description.abstract
High-Throughput-Technologien stellen einen Durchbruch in der experimentellen
Molekularbiologie dar. Sie ermöglichen eine Einsicht in die molekularen
Mechanismen der Zelle, die mit traditionellen Ansätzen nicht zu erforschen
sind. Mithilfe von differenzierten statistischen und computergestützen
Methoden können wertvolle Informationen aus diesen Datensätzen gezogen werden.
Clustering ist der am häufigsten gebrauchte Ansatz, um in solchen
Hochdurchsatzdaten Gensätze mit verwandten Funktionen zu entdecken.
Traditionelle Clustering-Methoden wie das hierarchische Clustering und k-means
haben jedoch ihre Grenzen. Erstens basieren sie auf der Annahme, dass sich ein
Gencluster in allen Proben gleich verhält. Es ist aber auch möglich, dass ein
zellulärer Prozess nur eine Teilmenge der Gene beeinflußt oder dass er nur
unter bestimmten Bedingungen seine Wirkung entfaltet. Zweitens wird in
traditionellen Clusteriung-Methoden jedes einzelne Gen einem einzigen Cluster
zugeteilt, obwohl manche Gene in bestimmten Proben nicht aktiv, andere dagegen
in mehrere Prozesse involviert sind. Biclustering überwindet diese
Schwierigkeiten, weil dabei Gene und Proben gleichzeitig gruppiert werden.
Neue Studien haben gezeigt, dass Biclustering ein großes Potential für die
Entdeckung von Markergenen hat, die mit bestimmten Geweben oder Krankheiten
assoziiert sind. Mehrere Biclustering-Algorithmen existieren, aber es ist
immer noch schwierig, Bicluster zu finden, deren Signifikanz biologisch
validiert ist. Zusätzlich ist es nötig, einen Biclustering-Algorithmus zu
finden, der in der Lage ist, sehr große Datensätze innerhalb kurzer Zeit zu
analysieren. Der erste Teil dieser Doktorarbeit beschäftigt sich mit
Biclustering-Algorithmen. Wir schlagen einen neuen, schnellen Biclustering-
Algorithmus speziell für die Analyse von großen Datensätzen vor. Der
Algorithmus findet Bicluster, in denen jedes Gen im Vergleich zu den übrigen
Proben in allen Biclusterproben hoch oder niedrig exprimiert ist. Im Gegensatz
zu anderen Algorithmen muss die Anzahl der Bicluster nicht a priori definiert
werden. Anhand synthetischer und biologischer Datensätze vergleichen wir
unsere Methode mit andere Biclustering-Algorithmen. GO term und TFBS-
Anreicherung zeigen, dass der DeBi-Algorithmus biologisch signifikante
Bicluster identifiziert. Wir zeigen auch, dass der Algorithmus nützlich und
leistungsstark in der Analyse großer Datensätze ist. Die Methode kann auf
Expressionsdatensätze aus verschiedenen Laboren und von unterschiedlichen
Plattformen angewandt werden. Wir hoffen, dass unsere Methode die Entwicklung
des Biclustering als Werkzeug für die Datenanalyse in der funktionellen
Genomik vorantreiben und unterstützen wird. Der zweite Teil der Doktorarbeit
beschäftigt sich mit der Aufklärung von molekularen Mechanismen in der
traditionellen chinesischen Medizin (TCM), sowie mit der Identifi¬kation neuer
Kandidaten aus traditionellen chinesischen Heilmitteln für die Entwicklung
neuer Medikamente. Für diese Zwecke werden gene set enrichment tools und
Biclustering eingesetzt. Weiterhin wurde Datenbank namens Medicinal
Connectivity of TCM, MecoTCM, etabliert, welches systematische Verbindungen
zwischen Genexpression, Krankheitsstatus und biochemischer Aktivität aufbaut.
Dadurch gelang es, biologisch relevante Informationen über die TCM-Theorie zu
finden, zum Beispiel über die Pflanze Ginseng. Unsere Ergebnisse wurden mit
Chip-Seq-Experimenten validiert. Künftig soll dieser Datensatz durch die
Integration von Tumorgenexpressionsprofilen verbessert werden.
de
dc.description.abstract
High throughput technologies are the latest breakthroughs in experimental
molecular biology. These technologies provide insight into the molecular
mechanism of the cell which was impossible to study with traditional
approaches. However, sophisticated statistical and computational methods are
required to extract useful information from these datasets. The most common
approach for detecting functionally related gene sets from such high
throughput data is clustering. Traditional clustering methods like
hierarchical clustering and k-means, have several limitations. Firstly, they
are based on the assumption that a cluster of genes behaves similarly in all
samples. However, a cellular process may affect a subset of genes, only under
certain conditions. Secondly, clustering assigns each gene or sample to a
single cluster. However, some genes may not be active in any of the samples
and some genes may participate in multiple processes. Biclustering overcomes
these limitations by grouping genes and samples simultaneously. Recent studies
showed that biclustering has a great potential in detecting marker genes that
are associated with certain tissues or diseases. Several biclustering
algorithms have been proposed. However, it is still a challenge to find
biclusters that are significant based on biological validation measures.
Additionally, there is a need for a biclustering algorithm that is capable of
analyzing very large datasets in reasonable time. The first part of the thesis
focuses on biclustering algorithms. We propose a novel fast biclustering
algorithm especially for analyzing large data sets. Our algorithm aims to find
biclusters where each gene in a bicluster should be highly or lowly expressed
over all the bicluster samples compared to the rest of the samples. Unlike
other algorithms, it is not required to define the number of biclusters
apriori. We compare our method with other biclustering algorithms using
synthetic data and biological data. It is shown that the DeBi algorithm
provides biologically significant biclusters using GO term and TFBS enrichment.
We also present the computational efficiency of our algorithm. It is a useful
and powerful tool in analyzing large data sets. The method is also applicable
on multiple gene expression datasets coming from different coming from
different labs or platforms. The hope is that our method will further
contribute to establishing biclustering as a general purpose tool for data
analysis in functional genomics. In the second part of the thesis, we aim to
contribute to: (1) the elucidation of the molecular mechanism of Traditional
Chinese Medicine (TCM) functions, (2) the identification of new drug candidates
from TCM against different human disease, by using gene set enrichment tools
and biclustering. In this regard, we establish a research network called
Medicinal Connectivity of TCM, MecoTCM, in which the systematic connections is
created among gene expression, disease status, and bioactive chemicals. Using
our approach, we discovered biologically significant findings about TCM theory,
for example on herb Ginseng. We further validated our results using Chip-Seq
experiments. We plan to further upgrade this dataset by comparisons to
existing tumor gene expression profiles, in an attempt to match tumor profiles
and TCM treatment profiles in terms of the affected pathways.
en
dc.format.extent
VIII, 86 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
gene expression
dc.subject
frequent item set
dc.subject
gene set enrichment
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Biclustering analysis for large scale data
dc.contributor.contact
akdess@gmail.com
dc.contributor.firstReferee
Martin Vingron
dc.contributor.furtherReferee
Tim Beissbarth
dc.date.accepted
2011-11-18
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000035625-3
dc.title.translated
Biclusteranalyse für große Dateien
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000035625
refubium.mycore.derivateId
FUDISS_derivate_000000010545
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access