Improving Scoring Functions for Protein Docking by Machine Learning and
Learning Data

Krull, Florian

Improving Scoring Functions for Protein Docking by Machine Learning and Learning Data

Metadaten

dc.contributor.author

Krull, Florian

dc.date.accessioned

2018-06-07T20:45:33Z

dc.date.available

2016-02-19T10:25:46.230Z

dc.date.issued

2016

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/7105

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-11304

dc.description.abstract

Protein-protein docking plays a central role in many biological processes, such as signal transduction and transport across membranes, and is therefore of great scientific interest. Methods exist determining if two proteins interact. For many scientific questions, notably pharmaceutical ones, knowledge about the structure of the underlying protein-protein complex is essential. Often the structures of individual protein molecules can be determined by experimental techniques, but the structural characterization of protein complexes of many molecules often remains a challenge. This problem may be solved by computer-aided methods. Such approaches are called "protein- protein docking". They consist of methods that use the protein structure of the individual binding partners belonging to a protein-protein interaction pair as a starting point and compute the structure of the protein-protein complex. These docking algorithms usually consist of two components, one of which is a sampling algorithm that generates a set of promising structures (decoys) of the protein-protein complex. The other component is a so-called scoring function that aims to identify correct near-native protein complex structures among the generated decoys. Ideally, the scoring function assigns the best score to those structures that are closest to the native structure of the protein-protein complex. In this study, scoring functions have been established with supervised learning. In particular, the concept of representing decoys by atom-pair potentials which are derived from near-native decoys was introduced. This concept has been successfully carried out with two machine learning algorithms; with an artificial neural network and with a linear scoring function. With both approaches a scoring function was derived that is able to compete and even outperform other state-of-the-art scoring functions from the literature. The quality and quantity of training data play an essential role in supervised learning. Data sets from the literature consisting of protein-protein complexes turn out to be small or do not fulfill certain quality criteria. Therefore, in this study a method was developed to identify training data comprehensively and with well-defined, high quality criteria. This method was implemented in a computer program such that data sets can be generated automatically. It has been shown that, the continuous growth of the Protein Data Bank makes it necessary to provide a tool that can generate up-to-date data sets for protein docking in the future. Additionally, in this work it was demonstrated that the resulting training data notably improved the performance of the machine learning algorithm. Finally, in this work we successfully transferred the concept of using atom-pair potentials with near-native decoys to the field of protein structure prediction. Protein structure prediction is carried out by methods that compute the structure of a protein from its amino acid sequence. Such methods can serve as a preliminary step in protein-protein docking whenever the structure of one of the two binding partners is unknown. In this study, it was shown that the concept of deriving atom-pair potentials from near-native decoys is also successfully applicable for state-of-the-art approaches in protein structure prediction.

dc.description.abstract

Protein-Protein-Interaktionen spielen eine zentrale Rolle in vielen biologischen Prozessen, wie Signaltransduktion und Transportfunktionen, und sind daher von großem wissenschaftlichen Interesse. Es existieren verschiedene Methoden, um festzustellen, ob eine Interaktion zwischen zwei Proteinen stattfindet. Beispielsweise für pharmazeutische Fragestellungen ist die räumlichen Struktur des zu Grunde liegenden Protein-Protein-Komplexes von entscheidender Bedeutung. Die Bestimmung der räumlichen Struktur von Proteinen ist mit experimentellen Methoden generell möglich, gestaltet sich jedoch für Protein-Protein-Komplexe deutlich schwieriger. Über computergestützte Methoden versucht man dieses Problem mit geringem Aufwand zu lösen. Solche unter "Protein-Protein-Docking" zusammengefassten Verfahren gehen von der bekannten chemischen und räumlichen Struktur der Bindungspartner einer Protein-Protein- Interaktion aus und berechnen aus ihnen die Struktur des Protein-Protein- Komplexes. Zumeist bestehen Docking-Algorithmen aus zwei Komponenten. Eine Komponente generiert eine Menge aussichtsreicher Strukturen des Protein- Protein-Komplexes. Die andere Komponente, eine sogenannte "Scoring-Funktion", identifiziert unter all den aussichtsreichen Kandidaten die richtigen Strukturen. Dazu wird für jeden Kandidaten ein Zahlenwert (Score) berechnet. Idealerweise haben jene Kandidaten den höchsten Score, welche am nächsten zu der richtigen Lösung und somit am ähnlichsten zu dem nativen Protein-Protein- Komplex sind. Im Rahmen dieser Untersuchung wurden Scoring-Funktionen mit Hilfe von maschinellem Lernen erarbeitet. Dabei wurde das Konzept vorgestellt, Protein-Komplexe über Atompaar-Potentiale zu beschreiben und diese Potentiale ausschließlich von Struktur-Kandidaten mit hoher Ähnlichkeit zum nativen Protein-Protein-Komplex abzuleiten. Dieses Konzept wurde erfolgreich mit zwei Verfahren überwachten Lernens durchgeführt; mit einem künstlichen neuronalen Netz sowie mit einer linearen Bewertungsfunktion. Mit beiden Verfahren wurde eine Scoring-Funktion bestimmt, welche eine ähnlich hohe oder bessere Vorhersagekraft als andere aktuelle Scoring-Funktionen aufweist. Entscheidende Faktoren für den Erfolg überwachten Lernens sind die Qualität und die Quantität der Trainingsdaten. Bereits publizierte Zusammensetzungen solcher Trainingsdaten, das heißt Strukturen von Protein-Protein-Komplexen, sind relativ klein oder weisen qualitative Mängel auf. In dieser Arbeit wurde daher ein Verfahren ausgearbeitet, solche Trainingsdaten umfassend und mit hohen, klar definierten Qualitätskriterien zu bestimmen. Dieses Qualitätskriterien wurden in einem Computerprogramm verwendet, welches automatisch einsetzbar ist. Es konnte gezeigt werden, dass diese automatische Methode aufgrund der stetig wachsenden Anzahl der Strukturen in der Protein Data Bank von großer Wichtigkeit ist. Ebenso wurde in dieser Arbeit demonstriert, dass durch die resultierenden Trainingsdaten der Erfolg des maschinellen Lernens deutlich verbessert werden kann. Abschließend wurden Erkenntnisse dieser Arbeit aus dem Bereich des Protein-Protein-Docking erfolgreich auf den Bereich der Proteinstrukturvorhersage angewendet. Zur Proteinstrukturvorhersage zählen Methoden, die die Struktur eines Proteins aus seiner Aminosäurensequenz bestimmen. Diese Verfahren kommen mitunter im Protein-Protein-Docking zum Einsatz und dienen dort als einleitender Schritt, wenn die Struktur einer der beiden Bindungspartner unbekannt ist. In dieser Arbeit wurde gezeigt, dass das Konzept, Atompaar-Potentiale von fast nativen Struktur-Kandidaten abzuleiten, sich ebenfalls in der Proteinstrukturvorhersage erfolgreich gegenüber anderen Methoden bewährt.

dc.format.extent

54 Seiten

dc.language

eng

dc.rights.uri

http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen

dc.subject

docking

dc.subject

protein docking

dc.subject

scoring function

dc.subject

machine learning

dc.subject

protein complexes

dc.subject

data set

dc.subject

dc.subject.ddc

500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::572 Biochemie

dc.title

Improving Scoring Functions for Protein Docking by Machine Learning and Learning Data

dc.type

Dissertation

dcterms.format

Text

dc.contributor.gender

dc.contributor.firstReferee

Prof. Dr. Ernst-Walter Knapp

dc.contributor.furtherReferee

Prof. Dr. Andrew Torda

dc.date.accepted

2016-02-02

dc.identifier.urn

urn:nbn:de:kobv:188-fudissthesis000000101356-5

dc.title.translated

Optimierung von Bewertungsfunktionen für Protein-Protein Docking mit maschinellem Lernen und Lerndaten

refubium.affiliation

Biologie, Chemie, Pharmazie

refubium.mycore.fudocsId

FUDISS_thesis_000000101356

refubium.mycore.derivateId

FUDISS_derivate_000000018682

dcterms.accessRights.dnb

free

dcterms.accessRights.openaire

open access

Zur Kurzanzeige

Das Dokument erscheint in:

Dissertationen FU

Dateien zu dieser Ressource

thesis_krull_2015.pdf

Größe: 14.90MB

Format: PDF

Prüfsumme (MD5): 604db6bed1f1471d5fbca305966315fa

Öffnen

Improving Scoring Functions for Protein Docking by Machine Learning and Learning Data

Refubium - Repositorium der Freien Universität Berlin

Improving Scoring Functions for Protein Docking by Machine Learning and Learning Data

Metadaten

Das Dokument erscheint in:

Dateien zu dieser Ressource

Metadaten exportieren