Die menschliche Zelle umfasst eine große Menge verschiedener Biomoleküle wie Nukleinsäuren, Proteine und Metabolite. Diese Biomoleküle erfüllen ihre Funktionen nicht isoliert, sondern durch ein komplexes Zusammenspiel untereinander. Erkenntnisse über die Gesamtheit der molekularen Wechselwirkungen, die in der Zelle stattfinden, ist unentbehrlich für das Verständnis zellulärer Prozesse auf der Systemebene. Zum Beispiel können molekulare Interaktionen oft erklären, wie Funktionsstörungen bestimmter Gene etwa durch Mutation zu einer bestimmten Krankheit führen. Gerade wegen diesem Aufklärungspotential molekularer Wechselwirkungen wurden zu ihrer Identifizierung unterschiedliche Techniken entwickelt. Viele molekulare Interaktionen in der menschlichen Zelle sind bereits entdeckt und veröffentlicht worden, wenngleich sie schätzungsweise nur einen kleinen Teil der wirklich existierenden Wechselwirkungen darstellen. Diverse Datenbanken sind entwickelt worden um Interaktionsdaten, die zum Beispiel über Datamining gewonnen werden, systematisch zu sammeln. Vorhandene Interaktionsnetzwerke werden bereits in verschiedenen Methoden eingesetzt, die zum Ziel haben, neue Erkenntnisse über krankheitsrelevante Gene, Stoffwechselwege und Signalwege zu gewinnen. Ein tieferes Verständnis über normale und krankheitsbedingte zelluläre Prozesse auf der Systemebene ist allerdings durch zwei weitere Hauptfaktoren (neben der Unvollständigkeit vorhandener Interaktionsdaten) stark eingeschränkt. Zum einen sind solche Daten in der Regel fehlerhaft, das heißt, sie enthalten viele falsch positive Interaktionen. Diese entstehen meistens durch Fehler bei den experimentellen Messungen oder gegebenenfalls beim Datamining. Zum anderen sind vorhandene Daten in Hunderten von Datenbanken verstreut, wobei jede Datenbank Interaktionen nur einer oder weniger Arten enthält: manche Datenbanken enthalten ausschließlich Proteininteraktionen, während andere auf Genregulationen, metabolische Reaktionen oder Signalwege spezialisiert sind. In der Zelle wirken all diese Arten von Interaktionen zusammen um biologische Prozesse zu treiben. Interaktionsdatenbanken müssen also integriert werden, damit ein vollständigeres Modell der zellulären Biologie entsteht. Eine solche Integration ist dadurch erschwert, dass die einzelnen Datenbanken sehr unterschiedliche Datenmodelle und -formate haben. Diese Dissertation beschäftigt sich mit den Herausforderungen, dass vorhandene Interaktionsdaten zum einen fehlerhaft sind und zum anderen in vielen, wenig überlappenden Datenbanken zerstreut sind. Zuerst wird eine neue Metadatenbank für molekulare Wechselwirkungen namens ConsensusPathDB vorgestellt. Hier werden unterschiedliche Arten von Interaktionen aus vielen öffentlichen Ressourcen integriert um ein vollständigeres Bild der molekularen Wechselwirkungen in der menschlichen Zelle zu erzielen. Zur Zeit sind Wechselwirkungen sowie Signal- und Stoffwechselwege aus sechsundzwanzig öffentlichen Ressourcen in der Metadatenbank integriert. Deshalb stellt das in der ConsensusPathDB vorhandene Interaktionsnetzwerk das umfangreichste Modell der Wechselwirkungen in der humanen Zelle dar. Der Mehrwert der Datenintergation wird anhand einiger Beispiele veranschaulicht. Die Webschnittstelle der Datenbank (http://cpdb.molgen.mpg.de) bietet zahlreiche Tools für Datensuche, Netzwerkanalyse und -visualiserung, sowie Interaktions- und Pathwaybasierte Analysen von Genexpressionsdaten. Diese stellen wichtige Hilfsmittel für Biologen und Molekularmediziner dar. Zweitens wird eine neue Methode vorgestellt, mir der Proteininteraktionen bezüglich ihrer Richtigkeit beurteilt werden. Die resultierenden Konfidenzwerte können benutzt werden um falsch positive Interaktionen zu detektieren, oder können als Interaktionsgewichte in netzwerkbasierten Methoden fungieren. Im Gegensatz zu vielen anderen Methoden werden hier keine Referenzdatensätze oder zusätzliche Informationen über die einzelnen Netzwerkelemente benötigt. Solche Daten sind oft nicht vorhanden, was vergleichbare Methoden zur Konfidenzwertbestimmung limitiert. Die vorgeschlagene Methode benutzt ausschließlich die Netzwerkstruktur, im Speziellen ihre Modularität, um die Konfidenzwerte zu berechnen. Drittens wird ein zugleich vollständigeres und akkurateres Modell zellulärer Wechselwirkungen erstellt, indem die vorgestellte Konfidenzwert Methode auf die integrierten Daten aus ConsensusPathDB angewandt wird. Von dem resultierenden Netzwerk wird in einem neuen Verfahren zur Identifizierung von krankheitsrelevanten Genen und Subnetzwerken unter Berücksichtigung von Genexpressionsprofilen Gebrauch gemacht. Das integrative Verfahren wird auf Genexpressionsdaten aus Prostatakrebspatienten angewandt um sein Potential zu demonstrieren, Krebsgene richtig zu erkennen.
The human cell comprises a large number of different biomolecules such as nucleic acids, proteins and metabolites. These molecules fulfill their functions not in isolation but rather through a complex interplay between each other. Knowledge about all molecular interactions that take place in the cell is key for understanding cellular processes at the systems level. For example, molecular interaction data can shed light on how a functional impairment of certain genes (caused e.g. by mutations) can lead to a certain disease. Because of this explanatory potential of molecular interactions, different techniques for their detection and prediction have been developed. Many human interactions have been detected and published, even though they probably represent only a small fraction of all interactions that take place in the living cell. Various databases have been developed to systematically store interactions that are e.g. mined from the scientific literature. Available interaction networks are already utilized in various mathematical methods aiming to gain insight into disease-related genes and pathways. A better systems-level understanding of biological processes in health and disease is made difficult mainly by two properties of current interaction data (beside their incompleteness). First, such data are known to be noisy, that is, they often contain false positive interactions. These result mainly from experimental or curation errors. Second, current interaction knowledge is dispersed among hundreds of interaction and pathway databases, each of which is focused only on one or very few types of interactions. For example, some databases contain only protein-protein interactions, while others focus either on gene regulatory interactions, metabolic reactions, or signaling reactions. At the same time, all types of interactions are deeply interconnected in the living cell to drive biological processes. Interaction databases must be integrated in order to obtain a more complete model of the molecular biology of the cell. Such an integration is particularly difficult because most databases have their own data model and file format. This dissertation addresses the problems that current interaction data are often contaminated with false positives on the one hand, and are dispersed in many, barely overlapping databases on the other hand. Firstly, a new interaction meta- database called ConsensusPathDB is introduced. It integrates different types of interactions from numerous public databases in order to create a more complete and unbiased picture of cellular biology on the molecular level. Currently, the database comprises interactions and pathways from a total of twenty-six resources, resulting in the most complete map of human interactions available. The added value of the meta-database is demonstrated with several examples. The ConsensusPathDB web interface (http://cpdb.molgen.mpg.de) features numerous tools for searching, analyzing and visualizing the underlying interaction network. Notably, it also provides tools for the analysis of gene expression data in the context of interactions and pathways that aim to facilitate research in the field of molecular medicine. Secondly, a novel method for confidence assessment of molecular interactions is presented. The confidence scores calculated by this method can serve to filter out false positive interactions, or can be used as interaction weights in methods that operate on probabilistic interaction data. In contrast to most other interaction confidence assessment methods, the proposed method requires no reference interaction sets or additional data about the separate genes/proteins or interactions. Such reference sets and additional information are not always available, which is a limiting factor for confidence assessment methods depending on them. The proposed method exploits solely the structure of the given interaction network, and more specifically its modularity, to calculate confidence scores. Thirdly, a more complete and at the same time more accurate model of molecular biology of the cell is created by applying the proposed confidence scoring method on the integrated interaction content of ConsensusPathDB. The resulting model is utilized in a new integrative approach that aims to identify disease-related genes and sub-networks given phenotype-specific gene expression data. The method is applied on expression data from prostate cancer patients to demonstrate its potential in identifying cancer causative genes.