dc.contributor.author
Krull, Florian
dc.date.accessioned
2018-06-07T20:45:33Z
dc.date.available
2016-02-19T10:25:46.230Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/7105
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-11304
dc.description.abstract
Protein-protein docking plays a central role in many biological processes,
such as signal transduction and transport across membranes, and is therefore
of great scientific interest. Methods exist determining if two proteins
interact. For many scientific questions, notably pharmaceutical ones,
knowledge about the structure of the underlying protein-protein complex is
essential. Often the structures of individual protein molecules can be
determined by experimental techniques, but the structural characterization of
protein complexes of many molecules often remains a challenge. This problem
may be solved by computer-aided methods. Such approaches are called "protein-
protein docking". They consist of methods that use the protein structure of
the individual binding partners belonging to a protein-protein interaction
pair as a starting point and compute the structure of the protein-protein
complex. These docking algorithms usually consist of two components, one of
which is a sampling algorithm that generates a set of promising structures
(decoys) of the protein-protein complex. The other component is a so-called
scoring function that aims to identify correct near-native protein complex
structures among the generated decoys. Ideally, the scoring function assigns
the best score to those structures that are closest to the native structure of
the protein-protein complex. In this study, scoring functions have been
established with supervised learning. In particular, the concept of
representing decoys by atom-pair potentials which are derived from near-native
decoys was introduced. This concept has been successfully carried out with two
machine learning algorithms; with an artificial neural network and with a
linear scoring function. With both approaches a scoring function was derived
that is able to compete and even outperform other state-of-the-art scoring
functions from the literature. The quality and quantity of training data play
an essential role in supervised learning. Data sets from the literature
consisting of protein-protein complexes turn out to be small or do not fulfill
certain quality criteria. Therefore, in this study a method was developed to
identify training data comprehensively and with well-defined, high quality
criteria. This method was implemented in a computer program such that data
sets can be generated automatically. It has been shown that, the continuous
growth of the Protein Data Bank makes it necessary to provide a tool that can
generate up-to-date data sets for protein docking in the future. Additionally,
in this work it was demonstrated that the resulting training data notably
improved the performance of the machine learning algorithm. Finally, in this
work we successfully transferred the concept of using atom-pair potentials
with near-native decoys to the field of protein structure prediction. Protein
structure prediction is carried out by methods that compute the structure of a
protein from its amino acid sequence. Such methods can serve as a preliminary
step in protein-protein docking whenever the structure of one of the two
binding partners is unknown. In this study, it was shown that the concept of
deriving atom-pair potentials from near-native decoys is also successfully
applicable for state-of-the-art approaches in protein structure prediction.
de
dc.description.abstract
Protein-Protein-Interaktionen spielen eine zentrale Rolle in vielen
biologischen Prozessen, wie Signaltransduktion und Transportfunktionen, und
sind daher von großem wissenschaftlichen Interesse. Es existieren verschiedene
Methoden, um festzustellen, ob eine Interaktion zwischen zwei Proteinen
stattfindet. Beispielsweise für pharmazeutische Fragestellungen ist die
räumlichen Struktur des zu Grunde liegenden Protein-Protein-Komplexes von
entscheidender Bedeutung. Die Bestimmung der räumlichen Struktur von Proteinen
ist mit experimentellen Methoden generell möglich, gestaltet sich jedoch für
Protein-Protein-Komplexe deutlich schwieriger. Über computergestützte Methoden
versucht man dieses Problem mit geringem Aufwand zu lösen. Solche unter
"Protein-Protein-Docking" zusammengefassten Verfahren gehen von der bekannten
chemischen und räumlichen Struktur der Bindungspartner einer Protein-Protein-
Interaktion aus und berechnen aus ihnen die Struktur des Protein-Protein-
Komplexes. Zumeist bestehen Docking-Algorithmen aus zwei Komponenten. Eine
Komponente generiert eine Menge aussichtsreicher Strukturen des Protein-
Protein-Komplexes. Die andere Komponente, eine sogenannte "Scoring-Funktion",
identifiziert unter all den aussichtsreichen Kandidaten die richtigen
Strukturen. Dazu wird für jeden Kandidaten ein Zahlenwert (Score) berechnet.
Idealerweise haben jene Kandidaten den höchsten Score, welche am nächsten zu
der richtigen Lösung und somit am ähnlichsten zu dem nativen Protein-Protein-
Komplex sind. Im Rahmen dieser Untersuchung wurden Scoring-Funktionen mit
Hilfe von maschinellem Lernen erarbeitet. Dabei wurde das Konzept vorgestellt,
Protein-Komplexe über Atompaar-Potentiale zu beschreiben und diese Potentiale
ausschließlich von Struktur-Kandidaten mit hoher Ähnlichkeit zum nativen
Protein-Protein-Komplex abzuleiten. Dieses Konzept wurde erfolgreich mit zwei
Verfahren überwachten Lernens durchgeführt; mit einem künstlichen neuronalen
Netz sowie mit einer linearen Bewertungsfunktion. Mit beiden Verfahren wurde
eine Scoring-Funktion bestimmt, welche eine ähnlich hohe oder bessere
Vorhersagekraft als andere aktuelle Scoring-Funktionen aufweist. Entscheidende
Faktoren für den Erfolg überwachten Lernens sind die Qualität und die
Quantität der Trainingsdaten. Bereits publizierte Zusammensetzungen solcher
Trainingsdaten, das heißt Strukturen von Protein-Protein-Komplexen, sind
relativ klein oder weisen qualitative Mängel auf. In dieser Arbeit wurde daher
ein Verfahren ausgearbeitet, solche Trainingsdaten umfassend und mit hohen,
klar definierten Qualitätskriterien zu bestimmen. Dieses Qualitätskriterien
wurden in einem Computerprogramm verwendet, welches automatisch einsetzbar
ist. Es konnte gezeigt werden, dass diese automatische Methode aufgrund der
stetig wachsenden Anzahl der Strukturen in der Protein Data Bank von großer
Wichtigkeit ist. Ebenso wurde in dieser Arbeit demonstriert, dass durch die
resultierenden Trainingsdaten der Erfolg des maschinellen Lernens deutlich
verbessert werden kann. Abschließend wurden Erkenntnisse dieser Arbeit aus dem
Bereich des Protein-Protein-Docking erfolgreich auf den Bereich der
Proteinstrukturvorhersage angewendet. Zur Proteinstrukturvorhersage zählen
Methoden, die die Struktur eines Proteins aus seiner Aminosäurensequenz
bestimmen. Diese Verfahren kommen mitunter im Protein-Protein-Docking zum
Einsatz und dienen dort als einleitender Schritt, wenn die Struktur einer der
beiden Bindungspartner unbekannt ist. In dieser Arbeit wurde gezeigt, dass das
Konzept, Atompaar-Potentiale von fast nativen Struktur-Kandidaten abzuleiten,
sich ebenfalls in der Proteinstrukturvorhersage erfolgreich gegenüber anderen
Methoden bewährt.
de
dc.format.extent
54 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
protein docking
dc.subject
scoring function
dc.subject
machine learning
dc.subject
protein complexes
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::572 Biochemie
dc.title
Improving Scoring Functions for Protein Docking by Machine Learning and
Learning Data
dc.contributor.firstReferee
Prof. Dr. Ernst-Walter Knapp
dc.contributor.furtherReferee
Prof. Dr. Andrew Torda
dc.date.accepted
2016-02-02
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000101356-5
dc.title.translated
Optimierung von Bewertungsfunktionen für Protein-Protein Docking mit
maschinellem Lernen und Lerndaten
de
refubium.affiliation
Biologie, Chemie, Pharmazie
de
refubium.mycore.fudocsId
FUDISS_thesis_000000101356
refubium.mycore.derivateId
FUDISS_derivate_000000018682
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access