Reconstructing gene regulatory networks (GRNs) from expression data is a challenging task that has become essential to the understanding of complex regulatory mechanisms in cells. The major issues are the usually very high ratio of the number of genes to the sample size, and the noise in the available data. In this thesis we investigate the effect of the number of samples and noise on the performance of statistical methods. The results indicate that in the case of not having many samples and/or in facing high amount of noise like the case for gene expression data, the performance of all methods decreased significantly compared to the well behaved case (many samples and no noise). Integrating biological prior knowledge to the learning process is a natural and promising way to partially compensate for the lack of reliable expression data and to increase the accuracy of network reconstruction algorithms. In this thesis, we present PriorPC, a new algorithm based on the PC algorithm that uses prior knowledge. Despite being one of the most popular methods for Bayesian network reconstruction, the PC algorithm is known to depend strongly on the order in which nodes are presented, especially for large networks. PriorPC exploits this flaw to include prior knowledge. We show on both synthetic and real data that the structural accuracy of networks obtained with PriorPC is greatly improved compared to the PC algorithm. Furthermore, PriorPC is fast and scales well for large networks which is important for its applicability to experimental data. Another challenge in GRN reconstruction is to detect (direct) nonlinear interactions between genes. A recently proposed association measure named distance correlation is a powerful method to find nonlinear relationships. In this thesis, we propose a novel approach to estimate partial distance correlation, the generalization of distance correlation which accounts for the influence of other variables and therefore it can detect direct nonlinear relationships.
Die Rekonstruktion von Gennetzwerken ("Gene Regulatory Networks", GRNs) aus Genexpressionsdaten ist eine anspruchsvolle Problemstellung, deren Lösung wichtig ist für das Verständnis der komplexen Regulationsmechanismen in der Zelle. Erschwert wird die Aufgabe einerseits durch die hohe Anzahl von Genen, deren Interaktionen man aus wenigen Experimenten schätzen möchte, und andererseits durch die fehlerbehafteten Messwerte der Genexpression. In der vorliegenden Arbeit wird zuerst untersucht, welche Auswirkungen die Anzahl der Experimente sowie die Stärke des Rauschens auf die Ergebnisse der statistischen Auswertung hat. Es zeigt sich, dass eine zu geringe Anzahl von Experimenten bei allen Methoden zu wesentlich schlechteren Ergebnissen führt. Ebenso führt höheres Rauschen in den Daten bei allen Methoden zu schlechteren Ergebnissen. Ein naheliegender Ausweg liegt in der Nutzung zusätzlicher Informationen ("prior knowledge"), um die Rekonstruktion des Gennetzwerkes zu unterstützen und so die Probleme mit Datenmenge oder –qualität wenigstens teilweise zu kompensieren. Wir entwickeln hierzu den PriorPC-Algorithmus, ein neues Verfahren, das auf dem bekannten PC-Algorithmus zur Rekonstruktion eines Netzwerkes basiert. Obwohl weit verbreitet, ist über den PC-Algorithmus bekannt, dass die Qualität der Resultate von der Reihenfolge, in der die Eingabedaten abgearbeitet werden, abhängt. PriorPC verwandelt diesen Nachteil in eine Stärke, indem in die Reihenfolge der Abarbeitung das verfügbare Vorwissen einfließt. Wir zeigen hier an simulierten sowie an echten Daten, dass der PriorPC-Algorithmus mit Vorwissen Netzwerke besser rekonstruieren kann als der einfache PC-Algorithmus. PriorPC ist außerdem schnell und auch für große Probleme, wie echte experimentelle Datensätze, einsetzbar. Eine weitere Herausforderung der Netzwerkrekonstruktion besteht in der Aufdeckung (direkter) nicht-linearer Beziehungen zwischen Genen. Vor Kurzem wurde das neue Assoziationsmaß der Distanzkorrelation eingeführt, welches eine leistungsfähige Methode zur Identifikation nicht-linearer Zusammenhänge darstellt. In der vorliegenden Arbeit schlagen wir mit der partiellen Distanzkorrelation eine Verallgemeinerung dieser Methode vor, welche für Einflüsse anderer Variablen korrigiert und so nicht-lineare Zusammenhänge findet sowie direkte von indirekten Beziehungen unterscheidet.