In this work, approaches that integrate different kinds of observations together with knowledge bases are presented. Two methods have applications in the post-processing of results obtained from high-throughput molecular biological experiments that usually deliver long list of biological entities that respond in the context of a given experiment. In order to justify and interpret results, it has become standard to combine these lists with knowledge bases, in which biological entities are categorized according to different criteria. The most prominent biomedical knowledge base provider is the Gene Ontology that conceptualizes features of genes and their products in a species-independent manner. The concepts are called terms and structured by various types of semantically meaningful parent-child relationships. The standard approach to address the integration problem was to apply Fisher's exact test on a term-for-term basis. As discussed in this thesis, this approach tends to produce many false-positives when applied to structured knowledge bases that contains more than thousands of terms, as relations between terms are ignored. In our first contribution, we proposed a change in the quantities that are used in the Fisher's exact test such that the direct dependency relations between a term and its parent are considered. Via simulations we show that this indeed reduces the number of false positives. Furthermore, we propose a Bayesian network, in which the observed feature of genes, i.e., the feature of being differentially regulated, are expressed as a generative process that has active terms as input and respects the noisy nature of experimentally gained data. We show that this approach is a generalization of the SetCover problem. We propose a stochastic procedure based on the Metropolis-Hastings framework to actually approximate the Bayesian inference problem. Via simulations, we verify that this approach is able to maintain precise predictions at much higher recalls than previous algorithms did. In the second part, another model-approach is proposed that allows one to query attribute ontologies for items in a target domain. For this purpose, we directly integrate an error model and a subset of the implications of logical inference within the Bayesian network. Although the algorithm can be used for arbitrary domains, including for searches in the World Wide Web, we focus its application on the Human Phenotype Ontology to provide a basis for a clinical expert system. For this particular use case, we also integrate frequency information and show via simulations that the inclusion of this knowledge improves classification performance.
In dieser Arbeit werden algorithmische Verfahren zur Integration von Be\\-ob\\-achtungen und Wissensbanken vorgestellt. Dabei liegt der Schwerpunkt des ersten Teils in der Auswertung von Daten, die mit Hilfe von molekularen Hoch\\-durch\\-satzverfahren gewonnen werden. Deren Erebnisse liegen gewöhnlich in Form einer langen Liste von biologischen Entitäten vor, die den Ausgang des biologischen Experiments zusammenfasst. Um eine Interpretation zu ermöglichen, werden die Listen standardmä{\ss}ig mit Wissensbanken abgeglichen. Hierbei wird häufig auf die Wissensbank \emph{Gene Ontology} zurückgegriffen, in der molekularbiologisches Wissen über Merkmale von Genen und ihren Produkten in Spezies-unabhänger Weise konzeptualisiert ist. Die Konzepte werden als Terms bezeichnet, die mit Hilfe verschiedener sogenannter Eltern-Kind-Be\\-zieh\\-ungen semantisch strukturiert sind. Bisherige Ansätze zum Abgleich der Ergebnislisten mit den Wissensbanken verwendeteten den exakten Test nach Fisher für jeden einzelnen Term. Wie in dieser Arbeit festgestellt wird, führt diese Herangehensweise zu falsch-positiven Resultaten, falls die verwendete Wissensbank strukturiert ist, wie es bei Gene Ontology der Fall ist, da Beziehungen zwischen einzelenen Terms ignoriert werden. In der zuerst vorgestellten Methode wird deshalb eine Änderung der zugrunde liegenden Test\\-statistik vorgeschlagen, die eine Berücksichtigung direkter El\\-tern-Kind-Be\\-ziehungen vorsieht. Simulationensreihen bestätigen eine Verringerung der falsch-positiven Resultate. Die zweite vorgeschlagene Methode basiert auf einem Bayesschen Netz, das die Beobachtungen der Gene mit Hilfe eines Term-Aktivitätsmusters erklärt, wobei das bei Mes\\-sungen auf\\-tretende Rauschen berücksichtigt wird. Es wird gezeigt, dass dieses Problem eine Verallgemeinerung des bekannten Mengenüberdeckungsproblems ist. Um die Lösung einer Instanz zu finden, wird eine stochastische Prozedur vorgeschlagen, die auf dem Metropolis-Hastings- Framework aufbaut. Aus\\-wertungen von Simulationen bestätigen, dass dieses Vorgehen präzise Aussagen bei deutlich höherer Trefferquote liefert, als es mit bisherigen Verfahren möglich war. Im zweiten Teil der Arbeit wird ein Modell-basierendes Verfahren vorge\\-schlagen, das annotierte Objekte ausgibt, die am Besten auf eine möglicherweise unvollständige oder fehlerbehaftete Beschreibung passen, wobei sich die Beschreibung aus Terms einer Ontologie zu\\-sam\\-mensetzt, die zur Annotationen der Objekte dient. Es wird zu diesem Zweck ein Fehlermodell und eine Teilmenge von möglichen Schlüssen der logischen Inferenz in einem Bayesschen Netz vereint. Obwohl der abgeleitete Algorithmus für beliebige Ontologien und Wissensgebiete angewandt werden kann, liegt der Schwerpunkt dieser Arbeit bei der Verwendung des Algorithmus auf Grundlage der \emph{Human Phenotype Ontlology}, um eine Basis für ein klinisches Expertensystem zu bilden. Es wird gezeigt, dass das Modell sehr leicht um die Berücksichtigung von Häufigkeiten erweitert werden kann. Anhand von Simulationen wird bestätigt, dass die Hinzunahme dieses Wissens die Klassifikationeigenschaft verbessert.