Improving Scoring Functions for Protein Docking by Machine Learning and
Learning Data

Krull, Florian

Improving Scoring Functions for Protein Docking by Machine Learning and Learning Data

Haupttitel:

Improving Scoring Functions for Protein Docking by Machine Learning and Learning Data

Titel übersetzt:

Optimierung von Bewertungsfunktionen für Protein-Protein Docking mit maschinellem Lernen und Lerndaten

Autor*in:

Krull, Florian

Erscheinungsjahr:

2016

Datum der Freigabe:

2016-02-19T10:25:46.230Z

Abstract:

Protein-protein docking plays a central role in many biological processes, such as signal transduction and transport across membranes, and is therefore of great scientific interest. Methods exist determining if two proteins interact. For many scientific questions, notably pharmaceutical ones, knowledge about the structure of the underlying protein-protein complex is essential. Often the structures of individual protein molecules can be determined by experimental techniques, but the structural characterization of protein complexes of many molecules often remains a challenge. This problem may be solved by computer-aided methods. Such approaches are called "protein- protein docking". They consist of methods that use the protein structure of the individual binding partners belonging to a protein-protein interaction pair as a starting point and compute the structure of the protein-protein complex. These docking algorithms usually consist of two components, one of which is a sampling algorithm that generates a set of promising structures (decoys) of the protein-protein complex. The other component is a so-called scoring function that aims to identify correct near-native protein complex structures among the generated decoys. Ideally, the scoring function assigns the best score to those structures that are closest to the native structure of the protein-protein complex. In this study, scoring functions have been established with supervised learning. In particular, the concept of representing decoys by atom-pair potentials which are derived from near-native decoys was introduced. This concept has been successfully carried out with two machine learning algorithms; with an artificial neural network and with a linear scoring function. With both approaches a scoring function was derived that is able to compete and even outperform other state-of-the-art scoring functions from the literature. The quality and quantity of training data play an essential role in supervised learning. Data sets from the literature consisting of protein-protein complexes turn out to be small or do not fulfill certain quality criteria. Therefore, in this study a method was developed to identify training data comprehensively and with well-defined, high quality criteria. This method was implemented in a computer program such that data sets can be generated automatically. It has been shown that, the continuous growth of the Protein Data Bank makes it necessary to provide a tool that can generate up-to-date data sets for protein docking in the future. Additionally, in this work it was demonstrated that the resulting training data notably improved the performance of the machine learning algorithm. Finally, in this work we successfully transferred the concept of using atom-pair potentials with near-native decoys to the field of protein structure prediction. Protein structure prediction is carried out by methods that compute the structure of a protein from its amino acid sequence. Such methods can serve as a preliminary step in protein-protein docking whenever the structure of one of the two binding partners is unknown. In this study, it was shown that the concept of deriving atom-pair potentials from near-native decoys is also successfully applicable for state-of-the-art approaches in protein structure prediction.

Protein-Protein-Interaktionen spielen eine zentrale Rolle in vielen biologischen Prozessen, wie Signaltransduktion und Transportfunktionen, und sind daher von großem wissenschaftlichen Interesse. Es existieren verschiedene Methoden, um festzustellen, ob eine Interaktion zwischen zwei Proteinen stattfindet. Beispielsweise für pharmazeutische Fragestellungen ist die räumlichen Struktur des zu Grunde liegenden Protein-Protein-Komplexes von entscheidender Bedeutung. Die Bestimmung der räumlichen Struktur von Proteinen ist mit experimentellen Methoden generell möglich, gestaltet sich jedoch für Protein-Protein-Komplexe deutlich schwieriger. Über computergestützte Methoden versucht man dieses Problem mit geringem Aufwand zu lösen. Solche unter "Protein-Protein-Docking" zusammengefassten Verfahren gehen von der bekannten chemischen und räumlichen Struktur der Bindungspartner einer Protein-Protein- Interaktion aus und berechnen aus ihnen die Struktur des Protein-Protein- Komplexes. Zumeist bestehen Docking-Algorithmen aus zwei Komponenten. Eine Komponente generiert eine Menge aussichtsreicher Strukturen des Protein- Protein-Komplexes. Die andere Komponente, eine sogenannte "Scoring-Funktion", identifiziert unter all den aussichtsreichen Kandidaten die richtigen Strukturen. Dazu wird für jeden Kandidaten ein Zahlenwert (Score) berechnet. Idealerweise haben jene Kandidaten den höchsten Score, welche am nächsten zu der richtigen Lösung und somit am ähnlichsten zu dem nativen Protein-Protein- Komplex sind. Im Rahmen dieser Untersuchung wurden Scoring-Funktionen mit Hilfe von maschinellem Lernen erarbeitet. Dabei wurde das Konzept vorgestellt, Protein-Komplexe über Atompaar-Potentiale zu beschreiben und diese Potentiale ausschließlich von Struktur-Kandidaten mit hoher Ähnlichkeit zum nativen Protein-Protein-Komplex abzuleiten. Dieses Konzept wurde erfolgreich mit zwei Verfahren überwachten Lernens durchgeführt; mit einem künstlichen neuronalen Netz sowie mit einer linearen Bewertungsfunktion. Mit beiden Verfahren wurde eine Scoring-Funktion bestimmt, welche eine ähnlich hohe oder bessere Vorhersagekraft als andere aktuelle Scoring-Funktionen aufweist. Entscheidende Faktoren für den Erfolg überwachten Lernens sind die Qualität und die Quantität der Trainingsdaten. Bereits publizierte Zusammensetzungen solcher Trainingsdaten, das heißt Strukturen von Protein-Protein-Komplexen, sind relativ klein oder weisen qualitative Mängel auf. In dieser Arbeit wurde daher ein Verfahren ausgearbeitet, solche Trainingsdaten umfassend und mit hohen, klar definierten Qualitätskriterien zu bestimmen. Dieses Qualitätskriterien wurden in einem Computerprogramm verwendet, welches automatisch einsetzbar ist. Es konnte gezeigt werden, dass diese automatische Methode aufgrund der stetig wachsenden Anzahl der Strukturen in der Protein Data Bank von großer Wichtigkeit ist. Ebenso wurde in dieser Arbeit demonstriert, dass durch die resultierenden Trainingsdaten der Erfolg des maschinellen Lernens deutlich verbessert werden kann. Abschließend wurden Erkenntnisse dieser Arbeit aus dem Bereich des Protein-Protein-Docking erfolgreich auf den Bereich der Proteinstrukturvorhersage angewendet. Zur Proteinstrukturvorhersage zählen Methoden, die die Struktur eines Proteins aus seiner Aminosäurensequenz bestimmen. Diese Verfahren kommen mitunter im Protein-Protein-Docking zum Einsatz und dienen dort als einleitender Schritt, wenn die Struktur einer der beiden Bindungspartner unbekannt ist. In dieser Arbeit wurde gezeigt, dass das Konzept, Atompaar-Potentiale von fast nativen Struktur-Kandidaten abzuleiten, sich ebenfalls in der Proteinstrukturvorhersage erfolgreich gegenüber anderen Methoden bewährt.

Identifier:

https://refubium.fu-berlin.de/handle/fub188/7105
http://dx.doi.org/10.17169/refubium-11304
urn:nbn:de:kobv:188-fudissthesis000000101356-5

Sprache:

Englisch

Freie Schlagwörter:

docking
protein docking
scoring function
machine learning
protein complexes
data set

DDC-Klassifikation:

572 Biochemie

Publikationstyp:

Dissertation

Fachbereich/Einrichtung:

Biologie, Chemie, Pharmazie