Das Verständnis der Beziehungen zwischen menschlichen Phänotypen und den zugrunde liegenden Genen ist ein zentrales Thema der modernen Biomedizin. Umfangreiche Datensätze über Interaktionen zwischen Gen-Produkten ermöglichen neue Ansätze zur Untersuchung dieser Beziehungen, indem die Zellen als komplexe Systeme bzw. Netzwerke betrachtet werden. Bisherige Ansätze betrachten dabei die lokale Nachbarschaft zu identifizierten Krankheitsgenen mittels Berechnung der kürzesten Pfade, um Krankheitsgene vorherzusagen. In dieser Arbeit wird hingegen gezeigt, dass Maße, die die gesamte Netzwerkstruktur einbeziehen, sehr gut für diese Problemstellung geeignet sind. Dafür wird eine Methode basierend auf dem Random-Walk vorgestellt und verglichen. Die Analyse von Krankheiten und deren Symptomen wird seit langem durch das Fehlen von Standards behindert. Phänotypische Beschreibungen wurden bisher lediglich in Textform abgelegt, wodurch automatisierte computerbasierte Analysen behindert werden. Diese Arbeit stellt die Human Phenotype Ontology (HPO) vor und beschreibt deren Anwendung auf Ähnlichkeitsberechnungen zwischen Krankheiten auf Basis von semantischer Ähnlichkeit zwischen den phänotypischen Spektren der Krankheitsbilder. Des Weiteren wird ein Programm vorgestellt, welches mit Hilfe der HPO das Finden von klinischen Diagnosen in der Humangenetik unterstützt. Dieses wurde mit einem neuen statistischen Modell unterlegt, welches die Zuweisung von P-Werten für semantische Ähnlichkeiten erlaubt. Motiviert durch das Ziel, Genotyp-zu-Phänotyp Assoziationen direkt zu finden, sollen neue Hochdurchsatz-Projekte nach und nach alle Gene von Modellorganismen ausschalten und die phänotypischen Konsequenzen aufzeichnen. Vor allem die speziesübergreifende Übertragung von solchen phänotypischen Daten ist wichtig, um die Beziehungen zwischen den Genotypen und Phänotypen beim Menschen besser zu verstehen. Speziesübergreifende Phänotyp-Analysen sind von enormer Bedeutung, da es derzeit mehr als 5.000 menschliche Gene ohne Phänotyp-Informationen gibt, für die es allerdings detaillierte Phänotypen- Information für die orthologen Gene in Maus und/oder Zebrafisch gibt. In dieser Arbeit wird die Entwicklung einer speziesübergreifenden, harmonisierten, semantischen Repräsentation von phänotypischen Abnormalitäten vorgestellt. Es wird beschrieben, wie man dadurch systematisch phänotypische Informationen von Modellorganismen und menschlichen monogenen Krankheiten integrieren kann. Weiterhin wird gezeigt, wie dies genutzt werden kann, um komplexe Phänotypen in Krankheiten, die durch Copy-Number-Variations (CNV) ausgelöst werden, einzelnen betroffenen Genen zuzuordnen. Mit diesem Ansatz wurden phänotypische "Vervielfachungen" als Charakteristikum von CNVs gefunden, bei denen mehrere Gene ein bestimmtes phänotypisches Merkmal beeinflussen. Häufig stellen diese "Vervielfachungen" neuartige Hypothesen für die gemeinsame Funktion der beteiligten Gene dar. Diese Hypothesen werden durch Korrelation mit Gene Ontology-Ähnlichkeit unterstützt und zeigen eine statistisch signifikante Nähe im Protein-Interaktions-Netzwerk, welche durch die Random-Walk-Methode ermittelt wurde.
Understanding the relationships between human phenotypic abnormalities and their underlying genes is an important subject in biomedicine. Comprehensive data sets on interactions between gene products enable novel systems approaches to be applied for elucidating those associations. Recently, neighborhood approaches, analysing the local shortest-path distances between network nodes, have been applied to the problem of disease gene prediction. Here it is shown that a global network-similarity measure based on random walks, is well suited for analysing vicinity in protein-protein interaction networks, and that this boosts the performance of guilt-by-association approaches for gene-to-phenotype research. Analysing disease information has long been hampered by the lack of standards and semantics in knowledge representation on associated phenotypic abnormalities. Often, phenotype descriptions were stored as a part of free text, making automated mining very difficult. This work presents the Human Phenotype Ontology (HPO) and its application to disease similarity calculation based on semantic similarity between phenotypic spectra. A tool is presented that uses the HPO to aid with clinical diagnostics in medical genetics and makes use of a novel statistical model assigning P-values to semantic similarity scores. Motivated by the aim of revealing genotype-to-phenotype associations directly, high-throughput projects are now exploring complete phenomes of model organisms such as mouse. Especially the transfer of knowledge across species is important to understand the relations between genotypes and phenotypes in model organisms on the one hand, and those seen in human diseases on the other hand. Cross-species phenotype analysis is of major importance, given that there are currently more than 5,000 human genes with no phenotype information, but for which detailed phenotypes are available for their mouse and/or zebrafish orthologs. In this work, the development of cross-species, harmonised, semantic representation of phenotype information is presented. A computational framework is developed to comprehensively harvest phenotypic information from model organisms and single-gene human hereditary disorders annotated to HPO terms. It is exemplified how this can speed the interpretation of the complex phenotypes of CNV disorders, and how this ontology-based approach is used to identify similarities between human phenotypes and the mutational phenotypes in known model organism genes. Using this approach, phenotypic multiplicities are identified as common characteristic of CNVs, in which multiple genes are said to influence a particular phenotypic feature of a broader spectrum of phenotypes. Often, the association between the genes of these multiplicities represent novel hypotheses and are supported by correlation with Gene Ontology similarity and random walk vicinity in protein interaction networks.