In recent years, the framework of network propagation has been adopted multiple times for the purpose of generating novel genotype-phenotype associations. However, existing methods usually rely on the standard degree-based formulation, which skews the results due to degree bias within protein-protein interaction networks. Furthermore, the network modules, which are identified post propagation by some of these methods, are rather dispersed and their genes are not well connected. In this thesis we present NetCore, a novel network propagation framework based on node core, for genotype-phenotype associations and module identification. NetCore explicitly addresses the node degree bias by incorporating node core in the random walk with restart formulation of network propagation. Additionally, NetCore applies a semi-supervised module identification procedure that allows us to connect between well characterized genes and novel candidate genes, which are significantly scored at the end of the propagation. We evaluate the performance of NetCore using gene sets from 11 different traits, which are based on previously established genome-wide associations. We show, using a cross-validation scheme, that our core-based approach improves the performance in comparison to the standard degree-based approach. Furthermore, we determine that our semi-supervised module identification procedure allows us to enhance the connectivity between the known phenotype-associated genes by introducing connections to novel candidate genes. The performance is assessed with respect to the choice of the different parameters in NetCore, along with assorted versions of the protein-protein interaction network, which was extracted from ConsensusPathDB. We demonstrate the application of NetCore to identify disease genes and modules for schizophrenia genome wide mutation data as well as for pan-cancer mutation data. We compare the results with existing network propagation methods and highlight the benefits of using NetCore in comparison to those. To illustrate the versatility of NetCore, we also apply it to gene expression levels measured upon anthracycline drug treatments, in order to elucidate the mechanisms of drug-induced toxicity. Altogether, this thesis provides a novel framework, with an easy-to-use implementation, which can be applied to various types of genomics data in order to obtain a re-ranking of genes and functionally relevant network modules. Our contributions improve the re-ranking after propagation, augment the experimental evidence towards candidate genes, and produce modules which connect well-characterized genes with novel predictions.
Network Propagation, also die Analyse der Informationsausbreitung in Netzwerken, hat sich in den letzten Jahren als nützliches Konzept für die medizinisch-biologische Forschung erwiesen, insbesondere bei der Analyse von Genotyp-Phänotyp Assoziationen (GPA). Existierende Methoden basieren dabei auf dem Knotengrad bei der Berechnung der Lösungen der mathematischen Prozesse (random walk with restart (RWR)). Der Knotengrad in biologischen Netzwerken neigt allerdings zu Verzerrungen. Außerdem stellt sich die Frage, wie aus dem errechneten Gleichgewichtszustand Teilnetzwerke bestimmt werden können (Netzwerkmodule), die Knoten mit hohem Gewicht miteinander verbinden und biologische Funktionen abbilden. Dies ist bei bisherigen Verfahren nicht optimal gelöst. In dieser Arbeit wird ein neues Verfahren zur Network Propagation entwickelt (NetCore) zur Analyse von GPA und zur Identifizierung von Netzwerkmodulen. NetCore basiert dabei im Gegensatz zu existierenden Methoden nicht auf dem Knotengrad als Parameter für die Berechnung des Gleichgewichtszustandes, sondern führt dazu den Core des Knotens (node core) ein. Dieses Maß erweist sich als robust gegenüber technischen oder Annotations-bedingten Verzerrungen in den Interaktionsnetzwerken und ist damit dem Knotengrad überlegen. Das neue Maß wird in den RWR eingebaut, so dass die Konvergenzbedingungen erfüllt sind. Nach dem Erreichen des Gleichgewichtszustandes realisiert NetCore im zweiten Schritt eine semi-überwachte Prozedur zur Identifizierung von Netzwerkmodulen, indem bereits bekannte Gene (Knoten) für den untersuchten Phänotyp als Initialisierung verwendet und mit den signifikant bewerteten Knoten verknüpft werden. NetCore wurde anhand von 11 verschiedenen Genotyp-Phänotyp Analysen aus genom\-weiten Assoziationsstudien validiert. Mithilfe von Kreuzvalidierung wird gezeigt, dass der Core-basierende Ansatz (NetCore) zu einer Verbesserung im Vergleich zu Knotengrad-basierenden Ansätzen führt. In der Arbeit wird gezeigt, dass NetCore sehr gut geeignet ist, um krankheitsrelevante Gene und Netzwerkmodule aus verschiedenen Typen von experimentellen Ausgangsdaten zu berechnen. Zum einen wird das Verfahren auf Mutationsdatensätze zu Schizophrenie und Krebs angewendet. Zum anderen wird das Verfahren auf Genexpressionsdaten in einem konkreten Anwendungsfall zur Medikamententoxizität getestet. Hierbei wurden 3D Mikrogewebe menschlicher Herzmuskelz\-ellen mit Anthrazyklinen behandelt, und die Effekte dieser Behandlung mit RNA-seq gemess\-en. Es wird gezeigt, wie solche Genexpressionsmessungen auf das Netzwerk übertragen werden können, und wie NetCore daraus biologisch-funktionell sinnvolle Netzwerkmodule identifizieren kann. Die Dissertation trägt zur Robustifizierung und Verbesserung von RWR Verfahren bei und ist ein Werkzeug zur Identifizierung von GPA sowie von Netzwerkmodulen zur funktionellen Beschreibung der zugrundeliegenden biologischen Prozesse.