dc.contributor.author
Kamburov, Atanas
dc.date.accessioned
2018-06-07T23:05:09Z
dc.date.available
2012-03-08T13:19:53.777Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/10028
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-14226
dc.description.abstract
Die menschliche Zelle umfasst eine große Menge verschiedener Biomoleküle wie
Nukleinsäuren, Proteine und Metabolite. Diese Biomoleküle erfüllen ihre
Funktionen nicht isoliert, sondern durch ein komplexes Zusammenspiel
untereinander. Erkenntnisse über die Gesamtheit der molekularen
Wechselwirkungen, die in der Zelle stattfinden, ist unentbehrlich für das
Verständnis zellulärer Prozesse auf der Systemebene. Zum Beispiel können
molekulare Interaktionen oft erklären, wie Funktionsstörungen bestimmter Gene
etwa durch Mutation zu einer bestimmten Krankheit führen. Gerade wegen diesem
Aufklärungspotential molekularer Wechselwirkungen wurden zu ihrer
Identifizierung unterschiedliche Techniken entwickelt. Viele molekulare
Interaktionen in der menschlichen Zelle sind bereits entdeckt und
veröffentlicht worden, wenngleich sie schätzungsweise nur einen kleinen Teil
der wirklich existierenden Wechselwirkungen darstellen. Diverse Datenbanken
sind entwickelt worden um Interaktionsdaten, die zum Beispiel über Datamining
gewonnen werden, systematisch zu sammeln. Vorhandene Interaktionsnetzwerke
werden bereits in verschiedenen Methoden eingesetzt, die zum Ziel haben, neue
Erkenntnisse über krankheitsrelevante Gene, Stoffwechselwege und Signalwege zu
gewinnen. Ein tieferes Verständnis über normale und krankheitsbedingte
zelluläre Prozesse auf der Systemebene ist allerdings durch zwei weitere
Hauptfaktoren (neben der Unvollständigkeit vorhandener Interaktionsdaten)
stark eingeschränkt. Zum einen sind solche Daten in der Regel fehlerhaft, das
heißt, sie enthalten viele falsch positive Interaktionen. Diese entstehen
meistens durch Fehler bei den experimentellen Messungen oder gegebenenfalls
beim Datamining. Zum anderen sind vorhandene Daten in Hunderten von
Datenbanken verstreut, wobei jede Datenbank Interaktionen nur einer oder
weniger Arten enthält: manche Datenbanken enthalten ausschließlich
Proteininteraktionen, während andere auf Genregulationen, metabolische
Reaktionen oder Signalwege spezialisiert sind. In der Zelle wirken all diese
Arten von Interaktionen zusammen um biologische Prozesse zu treiben.
Interaktionsdatenbanken müssen also integriert werden, damit ein
vollständigeres Modell der zellulären Biologie entsteht. Eine solche
Integration ist dadurch erschwert, dass die einzelnen Datenbanken sehr
unterschiedliche Datenmodelle und -formate haben. Diese Dissertation
beschäftigt sich mit den Herausforderungen, dass vorhandene Interaktionsdaten
zum einen fehlerhaft sind und zum anderen in vielen, wenig überlappenden
Datenbanken zerstreut sind. Zuerst wird eine neue Metadatenbank für molekulare
Wechselwirkungen namens ConsensusPathDB vorgestellt. Hier werden
unterschiedliche Arten von Interaktionen aus vielen öffentlichen Ressourcen
integriert um ein vollständigeres Bild der molekularen Wechselwirkungen in der
menschlichen Zelle zu erzielen. Zur Zeit sind Wechselwirkungen sowie Signal-
und Stoffwechselwege aus sechsundzwanzig öffentlichen Ressourcen in der
Metadatenbank integriert. Deshalb stellt das in der ConsensusPathDB vorhandene
Interaktionsnetzwerk das umfangreichste Modell der Wechselwirkungen in der
humanen Zelle dar. Der Mehrwert der Datenintergation wird anhand einiger
Beispiele veranschaulicht. Die Webschnittstelle der Datenbank
(http://cpdb.molgen.mpg.de) bietet zahlreiche Tools für Datensuche,
Netzwerkanalyse und -visualiserung, sowie Interaktions- und Pathwaybasierte
Analysen von Genexpressionsdaten. Diese stellen wichtige Hilfsmittel für
Biologen und Molekularmediziner dar. Zweitens wird eine neue Methode
vorgestellt, mir der Proteininteraktionen bezüglich ihrer Richtigkeit
beurteilt werden. Die resultierenden Konfidenzwerte können benutzt werden um
falsch positive Interaktionen zu detektieren, oder können als
Interaktionsgewichte in netzwerkbasierten Methoden fungieren. Im Gegensatz zu
vielen anderen Methoden werden hier keine Referenzdatensätze oder zusätzliche
Informationen über die einzelnen Netzwerkelemente benötigt. Solche Daten sind
oft nicht vorhanden, was vergleichbare Methoden zur Konfidenzwertbestimmung
limitiert. Die vorgeschlagene Methode benutzt ausschließlich die
Netzwerkstruktur, im Speziellen ihre Modularität, um die Konfidenzwerte zu
berechnen. Drittens wird ein zugleich vollständigeres und akkurateres Modell
zellulärer Wechselwirkungen erstellt, indem die vorgestellte Konfidenzwert
Methode auf die integrierten Daten aus ConsensusPathDB angewandt wird. Von dem
resultierenden Netzwerk wird in einem neuen Verfahren zur Identifizierung von
krankheitsrelevanten Genen und Subnetzwerken unter Berücksichtigung von
Genexpressionsprofilen Gebrauch gemacht. Das integrative Verfahren wird auf
Genexpressionsdaten aus Prostatakrebspatienten angewandt um sein Potential zu
demonstrieren, Krebsgene richtig zu erkennen.
de
dc.description.abstract
The human cell comprises a large number of different biomolecules such as
nucleic acids, proteins and metabolites. These molecules fulfill their
functions not in isolation but rather through a complex interplay between each
other. Knowledge about all molecular interactions that take place in the cell
is key for understanding cellular processes at the systems level. For example,
molecular interaction data can shed light on how a functional impairment of
certain genes (caused e.g. by mutations) can lead to a certain disease.
Because of this explanatory potential of molecular interactions, different
techniques for their detection and prediction have been developed. Many human
interactions have been detected and published, even though they probably
represent only a small fraction of all interactions that take place in the
living cell. Various databases have been developed to systematically store
interactions that are e.g. mined from the scientific literature. Available
interaction networks are already utilized in various mathematical methods
aiming to gain insight into disease-related genes and pathways. A better
systems-level understanding of biological processes in health and disease is
made difficult mainly by two properties of current interaction data (beside
their incompleteness). First, such data are known to be noisy, that is, they
often contain false positive interactions. These result mainly from
experimental or curation errors. Second, current interaction knowledge is
dispersed among hundreds of interaction and pathway databases, each of which
is focused only on one or very few types of interactions. For example, some
databases contain only protein-protein interactions, while others focus either
on gene regulatory interactions, metabolic reactions, or signaling reactions.
At the same time, all types of interactions are deeply interconnected in the
living cell to drive biological processes. Interaction databases must be
integrated in order to obtain a more complete model of the molecular biology
of the cell. Such an integration is particularly difficult because most
databases have their own data model and file format. This dissertation
addresses the problems that current interaction data are often contaminated
with false positives on the one hand, and are dispersed in many, barely
overlapping databases on the other hand. Firstly, a new interaction meta-
database called ConsensusPathDB is introduced. It integrates different types
of interactions from numerous public databases in order to create a more
complete and unbiased picture of cellular biology on the molecular level.
Currently, the database comprises interactions and pathways from a total of
twenty-six resources, resulting in the most complete map of human interactions
available. The added value of the meta-database is demonstrated with several
examples. The ConsensusPathDB web interface (http://cpdb.molgen.mpg.de)
features numerous tools for searching, analyzing and visualizing the
underlying interaction network. Notably, it also provides tools for the
analysis of gene expression data in the context of interactions and pathways
that aim to facilitate research in the field of molecular medicine. Secondly,
a novel method for confidence assessment of molecular interactions is
presented. The confidence scores calculated by this method can serve to filter
out false positive interactions, or can be used as interaction weights in
methods that operate on probabilistic interaction data. In contrast to most
other interaction confidence assessment methods, the proposed method requires
no reference interaction sets or additional data about the separate
genes/proteins or interactions. Such reference sets and additional information
are not always available, which is a limiting factor for confidence assessment
methods depending on them. The proposed method exploits solely the structure
of the given interaction network, and more specifically its modularity, to
calculate confidence scores. Thirdly, a more complete and at the same time
more accurate model of molecular biology of the cell is created by applying
the proposed confidence scoring method on the integrated interaction content
of ConsensusPathDB. The resulting model is utilized in a new integrative
approach that aims to identify disease-related genes and sub-networks given
phenotype-specific gene expression data. The method is applied on expression
data from prostate cancer patients to demonstrate its potential in identifying
cancer causative genes.
en
dc.format.extent
X, 133 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
interaction networks
dc.subject
protein-protein interactions
dc.subject
interaction confidence
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
More complete and more accurate interactomes for elucidating the mechanisms of
complex diseases
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Ron Shamir
dc.date.accepted
2012-02-17
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000036383-9
dc.title.translated
Vollständigere und akkuratere Interaktionsnetzwerke zur Aufklärung der
molekularen Mechanismen von komplexen Krankheiten
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000036383
refubium.mycore.derivateId
FUDISS_derivate_000000010786
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access