dc.contributor.author
Ghanbari, Mahsa
dc.date.accessioned
2018-06-07T23:33:00Z
dc.date.available
2016-06-22T09:48:57.194Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/10624
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-14822
dc.description.abstract
Reconstructing gene regulatory networks (GRNs) from expression data is a
challenging task that has become essential to the understanding of complex
regulatory mechanisms in cells. The major issues are the usually very high
ratio of the number of genes to the sample size, and the noise in the
available data. In this thesis we investigate the effect of the number of
samples and noise on the performance of statistical methods. The results
indicate that in the case of not having many samples and/or in facing high
amount of noise like the case for gene expression data, the performance of all
methods decreased significantly compared to the well behaved case (many
samples and no noise). Integrating biological prior knowledge to the learning
process is a natural and promising way to partially compensate for the lack of
reliable expression data and to increase the accuracy of network
reconstruction algorithms. In this thesis, we present PriorPC, a new algorithm
based on the PC algorithm that uses prior knowledge. Despite being one of the
most popular methods for Bayesian network reconstruction, the PC algorithm is
known to depend strongly on the order in which nodes are presented, especially
for large networks. PriorPC exploits this flaw to include prior knowledge. We
show on both synthetic and real data that the structural accuracy of networks
obtained with PriorPC is greatly improved compared to the PC algorithm.
Furthermore, PriorPC is fast and scales well for large networks which is
important for its applicability to experimental data. Another challenge in GRN
reconstruction is to detect (direct) nonlinear interactions between genes. A
recently proposed association measure named distance correlation is a powerful
method to find nonlinear relationships. In this thesis, we propose a novel
approach to estimate partial distance correlation, the generalization of
distance correlation which accounts for the influence of other variables and
therefore it can detect direct nonlinear relationships.
de
dc.description.abstract
Die Rekonstruktion von Gennetzwerken ("Gene Regulatory Networks", GRNs) aus
Genexpressionsdaten ist eine anspruchsvolle Problemstellung, deren Lösung
wichtig ist für das Verständnis der komplexen Regulationsmechanismen in der
Zelle. Erschwert wird die Aufgabe einerseits durch die hohe Anzahl von Genen,
deren Interaktionen man aus wenigen Experimenten schätzen möchte, und
andererseits durch die fehlerbehafteten Messwerte der Genexpression. In der
vorliegenden Arbeit wird zuerst untersucht, welche Auswirkungen die Anzahl der
Experimente sowie die Stärke des Rauschens auf die Ergebnisse der
statistischen Auswertung hat. Es zeigt sich, dass eine zu geringe Anzahl von
Experimenten bei allen Methoden zu wesentlich schlechteren Ergebnissen führt.
Ebenso führt höheres Rauschen in den Daten bei allen Methoden zu schlechteren
Ergebnissen. Ein naheliegender Ausweg liegt in der Nutzung zusätzlicher
Informationen ("prior knowledge"), um die Rekonstruktion des Gennetzwerkes zu
unterstützen und so die Probleme mit Datenmenge oder –qualität wenigstens
teilweise zu kompensieren. Wir entwickeln hierzu den PriorPC-Algorithmus, ein
neues Verfahren, das auf dem bekannten PC-Algorithmus zur Rekonstruktion eines
Netzwerkes basiert. Obwohl weit verbreitet, ist über den PC-Algorithmus
bekannt, dass die Qualität der Resultate von der Reihenfolge, in der die
Eingabedaten abgearbeitet werden, abhängt. PriorPC verwandelt diesen Nachteil
in eine Stärke, indem in die Reihenfolge der Abarbeitung das verfügbare
Vorwissen einfließt. Wir zeigen hier an simulierten sowie an echten Daten,
dass der PriorPC-Algorithmus mit Vorwissen Netzwerke besser rekonstruieren
kann als der einfache PC-Algorithmus. PriorPC ist außerdem schnell und auch
für große Probleme, wie echte experimentelle Datensätze, einsetzbar. Eine
weitere Herausforderung der Netzwerkrekonstruktion besteht in der Aufdeckung
(direkter) nicht-linearer Beziehungen zwischen Genen. Vor Kurzem wurde das
neue Assoziationsmaß der Distanzkorrelation eingeführt, welches eine
leistungsfähige Methode zur Identifikation nicht-linearer Zusammenhänge
darstellt. In der vorliegenden Arbeit schlagen wir mit der partiellen
Distanzkorrelation eine Verallgemeinerung dieser Methode vor, welche für
Einflüsse anderer Variablen korrigiert und so nicht-lineare Zusammenhänge
findet sowie direkte von indirekten Beziehungen unterscheidet.
en
dc.format.extent
vi, 102 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
association measure
dc.subject
prior knowledge
dc.subject
gene regulatory network
dc.subject
distance correlation
dc.subject
Bayesian network
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.title
Association measures and prior information in the reconstruction of gene
networks
dc.contributor.contact
mahsa.ghanbari@gmail.com
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Hanspeter Herzel
dc.date.accepted
2015-07-20
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000102006-9
dc.title.translated
Die Bedeutung von Assoziationsmaßen und A-priori-Informationen bei der
Rekonstruktion von Gennetzwerken
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000102006
refubium.mycore.derivateId
FUDISS_derivate_000000019176
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access