dc.contributor.author
Bauer, Sebastian
dc.date.accessioned
2018-06-07T19:38:26Z
dc.date.available
2012-09-17T11:47:04.704Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/6296
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-10495
dc.description.abstract
In this work, approaches that integrate different kinds of observations
together with knowledge bases are presented. Two methods have applications in
the post-processing of results obtained from high-throughput molecular
biological experiments that usually deliver long list of biological entities
that respond in the context of a given experiment. In order to justify and
interpret results, it has become standard to combine these lists with
knowledge bases, in which biological entities are categorized according to
different criteria. The most prominent biomedical knowledge base provider is
the Gene Ontology that conceptualizes features of genes and their products in
a species-independent manner. The concepts are called terms and structured by
various types of semantically meaningful parent-child relationships. The
standard approach to address the integration problem was to apply Fisher's
exact test on a term-for-term basis. As discussed in this thesis, this
approach tends to produce many false-positives when applied to structured
knowledge bases that contains more than thousands of terms, as relations
between terms are ignored. In our first contribution, we proposed a change in
the quantities that are used in the Fisher's exact test such that the direct
dependency relations between a term and its parent are considered. Via
simulations we show that this indeed reduces the number of false positives.
Furthermore, we propose a Bayesian network, in which the observed feature of
genes, i.e., the feature of being differentially regulated, are expressed as a
generative process that has active terms as input and respects the noisy
nature of experimentally gained data. We show that this approach is a
generalization of the SetCover problem. We propose a stochastic procedure
based on the Metropolis-Hastings framework to actually approximate the
Bayesian inference problem. Via simulations, we verify that this approach is
able to maintain precise predictions at much higher recalls than previous
algorithms did. In the second part, another model-approach is proposed that
allows one to query attribute ontologies for items in a target domain. For
this purpose, we directly integrate an error model and a subset of the
implications of logical inference within the Bayesian network. Although the
algorithm can be used for arbitrary domains, including for searches in the
World Wide Web, we focus its application on the Human Phenotype Ontology to
provide a basis for a clinical expert system. For this particular use case, we
also integrate frequency information and show via simulations that the
inclusion of this knowledge improves classification performance.
de
dc.description.abstract
In dieser Arbeit werden algorithmische Verfahren zur Integration von
Be\\-ob\\-achtungen und Wissensbanken vorgestellt. Dabei liegt der Schwerpunkt
des ersten Teils in der Auswertung von Daten, die mit Hilfe von molekularen
Hoch\\-durch\\-satzverfahren gewonnen werden. Deren Erebnisse liegen
gewöhnlich in Form einer langen Liste von biologischen Entitäten vor, die den
Ausgang des biologischen Experiments zusammenfasst. Um eine Interpretation zu
ermöglichen, werden die Listen standardmä{\ss}ig mit Wissensbanken
abgeglichen. Hierbei wird häufig auf die Wissensbank \emph{Gene Ontology}
zurückgegriffen, in der molekularbiologisches Wissen über Merkmale von Genen
und ihren Produkten in Spezies-unabhänger Weise konzeptualisiert ist. Die
Konzepte werden als Terms bezeichnet, die mit Hilfe verschiedener sogenannter
Eltern-Kind-Be\\-zieh\\-ungen semantisch strukturiert sind. Bisherige Ansätze
zum Abgleich der Ergebnislisten mit den Wissensbanken verwendeteten den
exakten Test nach Fisher für jeden einzelnen Term. Wie in dieser Arbeit
festgestellt wird, führt diese Herangehensweise zu falsch-positiven
Resultaten, falls die verwendete Wissensbank strukturiert ist, wie es bei Gene
Ontology der Fall ist, da Beziehungen zwischen einzelenen Terms ignoriert
werden. In der zuerst vorgestellten Methode wird deshalb eine Änderung der
zugrunde liegenden Test\\-statistik vorgeschlagen, die eine Berücksichtigung
direkter El\\-tern-Kind-Be\\-ziehungen vorsieht. Simulationensreihen
bestätigen eine Verringerung der falsch-positiven Resultate. Die zweite
vorgeschlagene Methode basiert auf einem Bayesschen Netz, das die
Beobachtungen der Gene mit Hilfe eines Term-Aktivitätsmusters erklärt, wobei
das bei Mes\\-sungen auf\\-tretende Rauschen berücksichtigt wird. Es wird
gezeigt, dass dieses Problem eine Verallgemeinerung des bekannten
Mengenüberdeckungsproblems ist. Um die Lösung einer Instanz zu finden, wird
eine stochastische Prozedur vorgeschlagen, die auf dem Metropolis-Hastings-
Framework aufbaut. Aus\\-wertungen von Simulationen bestätigen, dass dieses
Vorgehen präzise Aussagen bei deutlich höherer Trefferquote liefert, als es
mit bisherigen Verfahren möglich war. Im zweiten Teil der Arbeit wird ein
Modell-basierendes Verfahren vorge\\-schlagen, das annotierte Objekte ausgibt,
die am Besten auf eine möglicherweise unvollständige oder fehlerbehaftete
Beschreibung passen, wobei sich die Beschreibung aus Terms einer Ontologie
zu\\-sam\\-mensetzt, die zur Annotationen der Objekte dient. Es wird zu diesem
Zweck ein Fehlermodell und eine Teilmenge von möglichen Schlüssen der
logischen Inferenz in einem Bayesschen Netz vereint. Obwohl der abgeleitete
Algorithmus für beliebige Ontologien und Wissensgebiete angewandt werden kann,
liegt der Schwerpunkt dieser Arbeit bei der Verwendung des Algorithmus auf
Grundlage der \emph{Human Phenotype Ontlology}, um eine Basis für ein
klinisches Expertensystem zu bilden. Es wird gezeigt, dass das Modell sehr
leicht um die Berücksichtigung von Häufigkeiten erweitert werden kann. Anhand
von Simulationen wird bestätigt, dass die Hinzunahme dieses Wissens die
Klassifikationeigenschaft verbessert.
de
dc.format.extent
IX, 126 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
knowledge integration, graphical models, Bayesian networks
dc.subject
semantic search, gene expression analysis, medical decis
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::001 Wissen
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Algorithms for knowledge integration in biomedical sciences
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
PD Dr. N. Peter Robinson
dc.date.accepted
2012-02-07
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000039006-2
dc.title.translated
Algorithmen zur Wissensintegration in biomedizinischen Wissenschaften
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000039006
refubium.mycore.derivateId
FUDISS_derivate_000000012145
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access