dc.contributor.author
Farwer, Jochen
dc.date.accessioned
2018-06-07T19:50:33Z
dc.date.available
2005-11-23T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/6468
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-10667
dc.description
Titel, Inhalt, Abbildungs- und Tabellenverzeichnis
1\. Einleitung 1
2\. Methoden 5
3\. Ergebnisse, Teil 1-3.3.1.3 41
3\. Ergebnisse, Teil 3.3.2-3.4 67
4\. Zusammenfassung und Ausblick 95
5\. Abstract 99
6\. Anhang 103
Literaturverzeichnis 117
dc.description.abstract
In dieser Arbeit werden verschiedene Methoden zur Generierung von
Kontaktenergieparametern für die Proteinstrukturvorhersage verglichen.
Überprüft werden folgende Fragestellungen: -Ist eine gegebene Energiefunktion
in der Lage, native von nicht-nativen Proteinstrukturen zu unterscheiden?
-Werden nicht-native Strukturen, die eine Ähnlichkeit zur nativen Struktur im
Sinne eines hohen Overlaps aufweisen, als ähnlich erkannt? -Wird eine gegebene
native Struktur während einer Monte Carlo Simulation stabilisiert? Das heisst,
die native Struktur sollte während einer solchen Simulation bei niedriger
Temperatur den nativen Bereich nicht verlassen. -Ist eine Energiefunktion in
der Lage, zu einer gegebenen Sequenz eine Struktur mit nativen Eigenschaften
in einer Monte Carlo Simulation aufzufinden? Grundsätzlich wird unterschieden
zwischen Proteinstrukturen, die zur Optimierung der Kontaktenergiefunktion
verwendet wurden (gelernt) und solchen, die nicht zur Optimierung verwendet
wurden. Ist eine Energiefunktion in der Lage, Strukturen, die nicht gelernt
wurden, richtig zuzuordnen so ist sie übertragbar. Wird eine Struktur mit
niedrigster Energie für eine Zielsequenz gefunden ohne dass die experimentelle
Proteinstruktur unter den alternativen Strukturen vorhanden war und wurde die
Energiefunktion nicht auf diese Zielsequenz trainiert, so liegt eine echte
Strukturvorhersage vor. Folgende Methoden zur Berechnung der
Kontaktenergieparameter werden verwendet: -Eine Methode, die darauf abzielt
den Boltzmann-gewichteten Overlap Q zwischen Decoy Strukturen und
experimentellen Strukturen zu maximieren (boltz). -Eine lineare Optimierung
(LO), die auf der Lösung eines linearen Gleichungssystems basiert. -Eine
quasichemische Methode (QCM), die über die Häufigkeiten des Auftretens der
möglichen Kontakte in nativen und nicht-nativen Proteinstrukturen die
Kontaktenergieparameter bestimmt. Von beiden Methoden werden verschiedene
Varianten getestet. Um die Fähigkeit der Energiefunktionen native und nicht-
native Proteinstrukturen richtig zuzuordnen, zu testen, werden verschiedene
Sets an Proteinstrukturen verwendet. Damit die Energiefunktionen in sinnvoller
Weise trainiert und getestet werden können, ist es notwendig, dass die nicht-
nativen Strukturen typische Proteinmerkmale aufweisen: der Abstand zwischen in
der Sequenz benachbarten C-alpha Atomen sollte z.B. 3.8A betragen. Sinnvoll
ist auch, wenn typische Sekundärstrukturmerkmale wie alpha-Helices und beta-
Faltblätter vorliegen. Eine einfache und effektive Methode solche nicht-
nativen Strukturen zu erzeugen ist Threading. Hierbei wird eine Sequenz zu der
Strukturen erzeugt werden sollen (die Zielsequenz) und die Struktur eines
nativen Proteins zu einem Sequenz/Struktur-Paar (Decoy) vereinigt. Mit Hilfe
von mehreren Zielsequenzen und einer größeren Zahl an nativen
Proteinstrukturen lässt sich ein Set mit einer großen Anzahl von Sequenz
/Struktur-Paaren erzeugen. Am erfolgreichsten bei der richtigen Zuordnung
dieser Paare als nativ oder nicht-nativ ist eine quasichemische Methode,
welche berücksichtigt, dass zu den verschiedenen Zielsequenzen normalerweise
unterschiedlich viele Decoys vorliegen (QCMw) (siehe Gleichung 2.35). Bei
Verwendung des größten Proteinsets (Set_1014, dieses Set enthält 1014 Ketten
von 965 verschiedenen Proteinen. Alle 1014 Ketten werden zur Erzeugung von
Decoys verwendet, alle 202 einzelkettigen Proteine mit einer Länge kleiner
gleich 200 Aminosäuren werden als Zielsequenzen verwendet), werden 70% der
Zielsequenzen richtig als nativ erkannt. Diese Methode ist auch bezüglich der
Übertragbarkeit den anderen Methoden überlegen: es genügt ein Training mit
einem sehr kleinen Set an Strukturen um auch bei sehr viel größeren Sets gute
Erkennung zu erreichen. Desweiteren genügt es, von allen Decoys nur die
unähnlichsten für das Training zu verwenden. Für die untersuchten Sets an
Strukturen können über 90% der Decoys beim Lernen ausgeschlossen werden. Die
erreichte Erkennung (unter Verwendung aller Strukturen) bleibt hierbei
konstant bzw. verbessert sich sogar. Werden bei Verwendung von Set_1014 alle
Strukturen mit einem Overlap q>0.2 beim Lernen der Energieparameter
ausgeschlossen (dies entspricht 94% der Strukturen), so liegt die Erkennung
immer noch bei 70%. In der einfachsten Form besteht die Kontaktenergiefunktion
aus je einem Energieparameter für jedes der 210 möglichen Aminosäurepaare.
Erweiterungen sind problemlos möglich. Wird z.B. zwischen verschiedenen
Abständen der Residuen entlang der Sequenz unterschieden, also für ein
Aminosäurepaar der Residuen i und j der Kontaktenergieparameter in
Abhängigkeit von |j-i| gewählt, so lässt sich die Erkennung bei geeigneter
Wahl von Sequenzabstandsbereichen deutlich verbessern. Für Set_135 lässt sich
die Erkennung von 70% bei Verwendung von nur einem Bereich auf 85% bei
Verwendung von zwei Abstandsbereichen steigern. Bei Set_420 verbessert sich
hierbei die Erkennung von 52% auf 65%. Eine wichtige Eigenschaft der
Kontaktenergiefunktionen ist die Fähigkeit Strukturen, die Ähnlichkeit zur
nativen Struktur im Sinne eines hohen Overlaps aufweisen, als ähnlich zu
erkennen. Um diese Eigenschaft zu testen werden Zielsequenzen für die Decoys
mit hoher Ähnlichkeit vorliegen näher untersucht: weist der Decoy höchster
Ähnlichkeit die niedrigste Energie aller Decoys zu dieser Sequenz auf, so
wurde dieser Decoy erfolgreich als ähnlich erkannt. Beim Test der 14 Sequenzen
mit den ähnlichsten Decoys (Overlap q>=0.7) zeigt sich, dass bei sieben
Sequenzen bei keiner der untersuchten Methoden eine Vorhersage mit einem
Overlap größer 0.5 vorliegt. Bei Verwendung von QCMw Set_45 wird nur bei drei
Sequenzen der ähnlichste Decoy als solcher erkannt. Dies ist ein typisches
Problem von Kontaktenergiefunktionen: native Proteine werden gut als solche
erkannt, bei geringen Abweichungen von der nativen Struktur jedoch versagt die
Energiefunktion bei der Aufgabe die Ähnlichkeit zu erkennen. Eine Funktion,
die Proteinstrukturen hinsichtlich der Ähnlichkeit zur nativen Struktur
sinnvoll bewertet, sollte sich auch für Monte Carlo Simulationen eignen. Wird
für eine solche Simulation eine mittels der linearen Optimierung und Set_420
(welches Crambin nicht enthält) trainierte Energiefunktion verwendet und dient
die native Struktur von Crambin als Startpunkt, so ergibt sich eine Struktur
mit einem Overlap von q=0.78, und einer C_alpha cRMSD von 4.44A. Dient als
Startpunkt der Monte Carlo Simulation eine Struktur ohne native Eigenschaften,
so liegt eine echte Strukturvorhersage vor. Unter Verwendung der
Energiefunktion QCMw Set_45 wird für Crambin ein Overlap von q=0.56 bei einer
cRMSD von 6.66A erreicht. Die Struktur liegt somit zwar nicht im "nativen
Bereich", zeigt jedoch schon deutliche Ähnlichkeit zur nativen Struktur.
Auffälligerweise werden die besten Ergebnisse erzielt, wenn kleine Proteinsets
zum Lernen der Energiefunktion verwendet werden. Hier zeigt sich also der
gleiche Trend wie bei der Erkennung der nativen Strukturen: ein kleines
repräsentatives Set enthält bereits sehr viel Information bezüglich der
allgemeinen Struktur-Sequenz Abhängigkeit in Proteinen. Für das Protein 2erl
(Mating Pheromone Er-1) ergibt sich (bei Verwendung von QCMw Set_45) ein
Overlap von q=0.62 bei einer cRMSD von 5.84A. Für 1orc (Cro Repressor
Insertion Mutant K56-[Dgevk]) liegt mit einem Overlap von q=0.40 und einer
cRMSD von 9.56A keine sinnvolle Vorhersage vor. Monte Carlo Simulationen
können auch dafür genutzt werden, um Strukturen verschiedenster Ähnlichkeit zu
einer gegebenen Sequenz zu erzeugen. So können z.B. alle Strukturen einer
Monte Carlo Trajektorie als Decoys zum Training einer Kontaktenergiefunktion
verwendet werden. Wird die Simulation z.B. mit einer nativen Struktur
gestartet, so lässt sich die Ähnlichkeit der erzeugten Strukturen über die
verwendete Energiefunktion und die Simulationstemperatur steuern.
Faltungssimulationen mit Energiefunktionen, die mit solchen Strukturen
trainiert wurden, erzeugen keine besseren Strukturen als wenn das Training der
Energiefunktion mit Threading Strukturen erfolgt. Diese Tatsache lässt
vermuten, dass die Auswahl der Decoys zum Training der Energiefunktion nicht
den limitierenden Faktor darstellt. Ein wichtiger Punkt beim Vergleich von
Proteinstrukturen ist das verwendete Distanz- bzw. Ähnlichkeitskriterium.
Verschiedene Distanzkriterien werden hinsichtlich ihrer Fähigkeit
Abstandsverteilungen zwischen C-alpha Atomen von Proteinen wiederzugeben
überprüft. Es zeigt sich, dass die power distance, welche die Atomabstände
innerhalb der Proteinstrukturen berücksichtigt, eine sehr gute Beschreibung
der Proteinstrukturen liefert. Um dieses Distanzkriterium anwenden zu können
müssen jedoch die Atomabstände bekannt sein. Die Kontaktdistanz D_cont, welche
über die Beziehung D_cont=1-q mit dem Overlap q in Beziehung steht, erreicht
zwar nicht die Qualität der power distance bei der Beschreibung von
Proteinstrukturen, ist dafür aber sehr schnell anwendbar. Diese Eigenschaft
macht sie besonders geeignet für Threading, da hier eine sehr große Anzahl an
Proteinstrukturen erzeugt und verglichen wird. Das Prinzip der
Kontaktenergiefunktion lässt sich auf vielerlei Weise erweitern. Neben der
hier verwendeten Erweiterung der Energiefunktion auf mehrere
Sequenzabstandsbereiche ist auch eine Erweiterung auf mehrere Abstandsbereiche
im Raum möglich. Statt also z.B. "Kontakt" zu definieren, wenn der
C-alpha-C-alpha Abstand 11A nicht überschreitet, kann z.B. unterschieden
werden zwischen einem Abstand kleiner R1_c, einem Abstand zwischen R1_c und
R2_c und einem Abstand größer R2_c (kein Kontakt). Auch können verschiedene
Abstandsbereiche für verschiedene Aminosäurepaare verwendet werden.
de
dc.description.abstract
Contact energy functions can be used for protein structure prediction. An
important point when using such functions is how to compare different
structures. Different distance and similarity criteria are compared regarding
their ability to reproduce C-alpha-C-alpha distance distributions of proteins.
The power distance, which takes into account the interatomic distances, gives
a very good description of protein structures. In order to apply this
criterion, the interatomic distances are needed. A computational less
demanding criterion is the overlap q. This similarity relates the number of
common contacts of two structures with the maximum number of contacts of the
two structures. The contact distance D_cont which relates to the overlap q by
D_cont=1-q is inferior to the power distance when reproducing the distance
distributions, but much faster to apply. This property makes it suitable for
the training of energy functions with large sets of structures, where a large
number of comparisons has to be made. Different methods for generating such
functions are compared by looking at the following criteria: -The ability to
distinguish between native and non native protein structures. -The ability to
recognize structures similar to the native one as being similar with respect
to the overlap. -The stability of native protein structures in Monte Carlo
simulations. At low temperatures a native protein structure should remain
native like in such a simulation. -The calculation of native protein
structures. The following methods for generating energy functions are used: -A
maximisation of the Boltzmann-weighted overlap between decoy structures and
experimental structures. -A linear optimization, in which a set of linear
equations is solved. -A quasi chemical method, in which the contact energy
parameters are assigned by counting the different types of contact in native
and non native protein structures. Various versions of the different methods
are tested. Different protein sets are applied to check the capability of the
energy functions to assign native and non native protein structures correctly.
The performance of the functions when used together with methods for
calculating native protein structures is tested. The following methods are
applied to generate protein structures: Threading: A very fast and effective
method for generating structures. The sequence for which structures are
generated (the target sequence) and the structure of a native protein are
combined to a new sequence/structure pair (a decoy). Using several target
sequences together with a large number of native protein structures yields a
high number of such decoys. In this work a quasi chemical method which takes
into account, that the number of decoys for different target sequences differs
in general is most successful in assigning such native/non native structures
correctly. This method is also most successful in being transferable: the
training with a very small set of structures yields an energy function which
is successful also in assigning structures of much larger sets correctly.
Furthermore it is enough to train the function only with the most dissimilar
structures. For the used sets of structures 90% of the decoys can be excluded
from the learning procedure. The recognition (when using all structures)
remains the same or becomes even better. Monte Carlo Simulations: The
structures from a Monte Carlo trajectory can be used as decoys for the
training of the energy function. For example the native structure of a given
sequence can be used as starting point for a such a simulation. Structures
over a wide range of similarity can be generated in this way by varying the
temperature of the simulation and the used energy function. In this work
folding simulations carried out with energy functions trained in this way do
not give better results than folding simulations carried out using energy
functions trained with threading structures. Furthermore Monte Carlo
simulations are used for predicting native protein structures. This is done
using different types of energy functions. When doing a folding simulation of
the 46 residue protein crambin with an energy function optimized without using
this protein a structure with an overlap of q=0.56 and a cRMSD of 6.66A can be
obtained. Therefor the simulation ends up in a structure not being native but
having similarities to the native structure. The energy function in the
simplest form consists out of 210 contact energy parameters (one for each type
of amino acid pair). There are several possibilities for extending this type
of function. For example one can distinguish between different distances along
the sequence of the two amino acids in contact. When looking at the residues i
and j the energy parameter for the given types of amino acids is chosen with
respect of the distance |j-i|. For example using threading and two different
distances (what means the number of contact energy parameters is doubled)
improves the recognition for a set of 135 proteins (from which 82 are used as
target sequences, so as proteins which have to be recognized) from 70% to 85%.
For a set of 420 proteins (with 186 target sequences) the recognition is
improved from 52% to 65%.
en
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Protein Folding
dc.subject
Proteinstructureprediction
dc.subject.ddc
500 Naturwissenschaften und Mathematik::540 Chemie::540 Chemie und zugeordnete Wissenschaften
dc.title
Proteinstrukturanalyse und -vorhersage mit einer optimierten Energiefunktion
dc.contributor.firstReferee
Prof. Dr. E. W. Knapp
dc.contributor.furtherReferee
Prof. Dr. H. G. Holzhütter
dc.date.accepted
2005-11-11
dc.date.embargoEnd
2005-11-24
dc.identifier.urn
urn:nbn:de:kobv:188-2005003058
dc.title.translated
Protein Structure Analysis and Prediction by an Optimized Energy Function
en
refubium.affiliation
Biologie, Chemie, Pharmazie
de
refubium.mycore.fudocsId
FUDISS_thesis_000000001844
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2005/305/
refubium.mycore.derivateId
FUDISS_derivate_000000001844
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access