In dieser Arbeit werden verschiedene Methoden zur Generierung von Kontaktenergieparametern für die Proteinstrukturvorhersage verglichen. Überprüft werden folgende Fragestellungen: -Ist eine gegebene Energiefunktion in der Lage, native von nicht-nativen Proteinstrukturen zu unterscheiden? -Werden nicht-native Strukturen, die eine Ähnlichkeit zur nativen Struktur im Sinne eines hohen Overlaps aufweisen, als ähnlich erkannt? -Wird eine gegebene native Struktur während einer Monte Carlo Simulation stabilisiert? Das heisst, die native Struktur sollte während einer solchen Simulation bei niedriger Temperatur den nativen Bereich nicht verlassen. -Ist eine Energiefunktion in der Lage, zu einer gegebenen Sequenz eine Struktur mit nativen Eigenschaften in einer Monte Carlo Simulation aufzufinden? Grundsätzlich wird unterschieden zwischen Proteinstrukturen, die zur Optimierung der Kontaktenergiefunktion verwendet wurden (gelernt) und solchen, die nicht zur Optimierung verwendet wurden. Ist eine Energiefunktion in der Lage, Strukturen, die nicht gelernt wurden, richtig zuzuordnen so ist sie übertragbar. Wird eine Struktur mit niedrigster Energie für eine Zielsequenz gefunden ohne dass die experimentelle Proteinstruktur unter den alternativen Strukturen vorhanden war und wurde die Energiefunktion nicht auf diese Zielsequenz trainiert, so liegt eine echte Strukturvorhersage vor. Folgende Methoden zur Berechnung der Kontaktenergieparameter werden verwendet: -Eine Methode, die darauf abzielt den Boltzmann-gewichteten Overlap Q zwischen Decoy Strukturen und experimentellen Strukturen zu maximieren (boltz). -Eine lineare Optimierung (LO), die auf der Lösung eines linearen Gleichungssystems basiert. -Eine quasichemische Methode (QCM), die über die Häufigkeiten des Auftretens der möglichen Kontakte in nativen und nicht-nativen Proteinstrukturen die Kontaktenergieparameter bestimmt. Von beiden Methoden werden verschiedene Varianten getestet. Um die Fähigkeit der Energiefunktionen native und nicht- native Proteinstrukturen richtig zuzuordnen, zu testen, werden verschiedene Sets an Proteinstrukturen verwendet. Damit die Energiefunktionen in sinnvoller Weise trainiert und getestet werden können, ist es notwendig, dass die nicht- nativen Strukturen typische Proteinmerkmale aufweisen: der Abstand zwischen in der Sequenz benachbarten C-alpha Atomen sollte z.B. 3.8A betragen. Sinnvoll ist auch, wenn typische Sekundärstrukturmerkmale wie alpha-Helices und beta- Faltblätter vorliegen. Eine einfache und effektive Methode solche nicht- nativen Strukturen zu erzeugen ist Threading. Hierbei wird eine Sequenz zu der Strukturen erzeugt werden sollen (die Zielsequenz) und die Struktur eines nativen Proteins zu einem Sequenz/Struktur-Paar (Decoy) vereinigt. Mit Hilfe von mehreren Zielsequenzen und einer größeren Zahl an nativen Proteinstrukturen lässt sich ein Set mit einer großen Anzahl von Sequenz /Struktur-Paaren erzeugen. Am erfolgreichsten bei der richtigen Zuordnung dieser Paare als nativ oder nicht-nativ ist eine quasichemische Methode, welche berücksichtigt, dass zu den verschiedenen Zielsequenzen normalerweise unterschiedlich viele Decoys vorliegen (QCMw) (siehe Gleichung 2.35). Bei Verwendung des größten Proteinsets (Set_1014, dieses Set enthält 1014 Ketten von 965 verschiedenen Proteinen. Alle 1014 Ketten werden zur Erzeugung von Decoys verwendet, alle 202 einzelkettigen Proteine mit einer Länge kleiner gleich 200 Aminosäuren werden als Zielsequenzen verwendet), werden 70% der Zielsequenzen richtig als nativ erkannt. Diese Methode ist auch bezüglich der Übertragbarkeit den anderen Methoden überlegen: es genügt ein Training mit einem sehr kleinen Set an Strukturen um auch bei sehr viel größeren Sets gute Erkennung zu erreichen. Desweiteren genügt es, von allen Decoys nur die unähnlichsten für das Training zu verwenden. Für die untersuchten Sets an Strukturen können über 90% der Decoys beim Lernen ausgeschlossen werden. Die erreichte Erkennung (unter Verwendung aller Strukturen) bleibt hierbei konstant bzw. verbessert sich sogar. Werden bei Verwendung von Set_1014 alle Strukturen mit einem Overlap q>0.2 beim Lernen der Energieparameter ausgeschlossen (dies entspricht 94% der Strukturen), so liegt die Erkennung immer noch bei 70%. In der einfachsten Form besteht die Kontaktenergiefunktion aus je einem Energieparameter für jedes der 210 möglichen Aminosäurepaare. Erweiterungen sind problemlos möglich. Wird z.B. zwischen verschiedenen Abständen der Residuen entlang der Sequenz unterschieden, also für ein Aminosäurepaar der Residuen i und j der Kontaktenergieparameter in Abhängigkeit von |j-i| gewählt, so lässt sich die Erkennung bei geeigneter Wahl von Sequenzabstandsbereichen deutlich verbessern. Für Set_135 lässt sich die Erkennung von 70% bei Verwendung von nur einem Bereich auf 85% bei Verwendung von zwei Abstandsbereichen steigern. Bei Set_420 verbessert sich hierbei die Erkennung von 52% auf 65%. Eine wichtige Eigenschaft der Kontaktenergiefunktionen ist die Fähigkeit Strukturen, die Ähnlichkeit zur nativen Struktur im Sinne eines hohen Overlaps aufweisen, als ähnlich zu erkennen. Um diese Eigenschaft zu testen werden Zielsequenzen für die Decoys mit hoher Ähnlichkeit vorliegen näher untersucht: weist der Decoy höchster Ähnlichkeit die niedrigste Energie aller Decoys zu dieser Sequenz auf, so wurde dieser Decoy erfolgreich als ähnlich erkannt. Beim Test der 14 Sequenzen mit den ähnlichsten Decoys (Overlap q>=0.7) zeigt sich, dass bei sieben Sequenzen bei keiner der untersuchten Methoden eine Vorhersage mit einem Overlap größer 0.5 vorliegt. Bei Verwendung von QCMw Set_45 wird nur bei drei Sequenzen der ähnlichste Decoy als solcher erkannt. Dies ist ein typisches Problem von Kontaktenergiefunktionen: native Proteine werden gut als solche erkannt, bei geringen Abweichungen von der nativen Struktur jedoch versagt die Energiefunktion bei der Aufgabe die Ähnlichkeit zu erkennen. Eine Funktion, die Proteinstrukturen hinsichtlich der Ähnlichkeit zur nativen Struktur sinnvoll bewertet, sollte sich auch für Monte Carlo Simulationen eignen. Wird für eine solche Simulation eine mittels der linearen Optimierung und Set_420 (welches Crambin nicht enthält) trainierte Energiefunktion verwendet und dient die native Struktur von Crambin als Startpunkt, so ergibt sich eine Struktur mit einem Overlap von q=0.78, und einer C_alpha cRMSD von 4.44A. Dient als Startpunkt der Monte Carlo Simulation eine Struktur ohne native Eigenschaften, so liegt eine echte Strukturvorhersage vor. Unter Verwendung der Energiefunktion QCMw Set_45 wird für Crambin ein Overlap von q=0.56 bei einer cRMSD von 6.66A erreicht. Die Struktur liegt somit zwar nicht im "nativen Bereich", zeigt jedoch schon deutliche Ähnlichkeit zur nativen Struktur. Auffälligerweise werden die besten Ergebnisse erzielt, wenn kleine Proteinsets zum Lernen der Energiefunktion verwendet werden. Hier zeigt sich also der gleiche Trend wie bei der Erkennung der nativen Strukturen: ein kleines repräsentatives Set enthält bereits sehr viel Information bezüglich der allgemeinen Struktur-Sequenz Abhängigkeit in Proteinen. Für das Protein 2erl (Mating Pheromone Er-1) ergibt sich (bei Verwendung von QCMw Set_45) ein Overlap von q=0.62 bei einer cRMSD von 5.84A. Für 1orc (Cro Repressor Insertion Mutant K56-[Dgevk]) liegt mit einem Overlap von q=0.40 und einer cRMSD von 9.56A keine sinnvolle Vorhersage vor. Monte Carlo Simulationen können auch dafür genutzt werden, um Strukturen verschiedenster Ähnlichkeit zu einer gegebenen Sequenz zu erzeugen. So können z.B. alle Strukturen einer Monte Carlo Trajektorie als Decoys zum Training einer Kontaktenergiefunktion verwendet werden. Wird die Simulation z.B. mit einer nativen Struktur gestartet, so lässt sich die Ähnlichkeit der erzeugten Strukturen über die verwendete Energiefunktion und die Simulationstemperatur steuern. Faltungssimulationen mit Energiefunktionen, die mit solchen Strukturen trainiert wurden, erzeugen keine besseren Strukturen als wenn das Training der Energiefunktion mit Threading Strukturen erfolgt. Diese Tatsache lässt vermuten, dass die Auswahl der Decoys zum Training der Energiefunktion nicht den limitierenden Faktor darstellt. Ein wichtiger Punkt beim Vergleich von Proteinstrukturen ist das verwendete Distanz- bzw. Ähnlichkeitskriterium. Verschiedene Distanzkriterien werden hinsichtlich ihrer Fähigkeit Abstandsverteilungen zwischen C-alpha Atomen von Proteinen wiederzugeben überprüft. Es zeigt sich, dass die power distance, welche die Atomabstände innerhalb der Proteinstrukturen berücksichtigt, eine sehr gute Beschreibung der Proteinstrukturen liefert. Um dieses Distanzkriterium anwenden zu können müssen jedoch die Atomabstände bekannt sein. Die Kontaktdistanz D_cont, welche über die Beziehung D_cont=1-q mit dem Overlap q in Beziehung steht, erreicht zwar nicht die Qualität der power distance bei der Beschreibung von Proteinstrukturen, ist dafür aber sehr schnell anwendbar. Diese Eigenschaft macht sie besonders geeignet für Threading, da hier eine sehr große Anzahl an Proteinstrukturen erzeugt und verglichen wird. Das Prinzip der Kontaktenergiefunktion lässt sich auf vielerlei Weise erweitern. Neben der hier verwendeten Erweiterung der Energiefunktion auf mehrere Sequenzabstandsbereiche ist auch eine Erweiterung auf mehrere Abstandsbereiche im Raum möglich. Statt also z.B. "Kontakt" zu definieren, wenn der C-alpha-C-alpha Abstand 11A nicht überschreitet, kann z.B. unterschieden werden zwischen einem Abstand kleiner R1_c, einem Abstand zwischen R1_c und R2_c und einem Abstand größer R2_c (kein Kontakt). Auch können verschiedene Abstandsbereiche für verschiedene Aminosäurepaare verwendet werden.
Contact energy functions can be used for protein structure prediction. An important point when using such functions is how to compare different structures. Different distance and similarity criteria are compared regarding their ability to reproduce C-alpha-C-alpha distance distributions of proteins. The power distance, which takes into account the interatomic distances, gives a very good description of protein structures. In order to apply this criterion, the interatomic distances are needed. A computational less demanding criterion is the overlap q. This similarity relates the number of common contacts of two structures with the maximum number of contacts of the two structures. The contact distance D_cont which relates to the overlap q by D_cont=1-q is inferior to the power distance when reproducing the distance distributions, but much faster to apply. This property makes it suitable for the training of energy functions with large sets of structures, where a large number of comparisons has to be made. Different methods for generating such functions are compared by looking at the following criteria: -The ability to distinguish between native and non native protein structures. -The ability to recognize structures similar to the native one as being similar with respect to the overlap. -The stability of native protein structures in Monte Carlo simulations. At low temperatures a native protein structure should remain native like in such a simulation. -The calculation of native protein structures. The following methods for generating energy functions are used: -A maximisation of the Boltzmann-weighted overlap between decoy structures and experimental structures. -A linear optimization, in which a set of linear equations is solved. -A quasi chemical method, in which the contact energy parameters are assigned by counting the different types of contact in native and non native protein structures. Various versions of the different methods are tested. Different protein sets are applied to check the capability of the energy functions to assign native and non native protein structures correctly. The performance of the functions when used together with methods for calculating native protein structures is tested. The following methods are applied to generate protein structures: Threading: A very fast and effective method for generating structures. The sequence for which structures are generated (the target sequence) and the structure of a native protein are combined to a new sequence/structure pair (a decoy). Using several target sequences together with a large number of native protein structures yields a high number of such decoys. In this work a quasi chemical method which takes into account, that the number of decoys for different target sequences differs in general is most successful in assigning such native/non native structures correctly. This method is also most successful in being transferable: the training with a very small set of structures yields an energy function which is successful also in assigning structures of much larger sets correctly. Furthermore it is enough to train the function only with the most dissimilar structures. For the used sets of structures 90% of the decoys can be excluded from the learning procedure. The recognition (when using all structures) remains the same or becomes even better. Monte Carlo Simulations: The structures from a Monte Carlo trajectory can be used as decoys for the training of the energy function. For example the native structure of a given sequence can be used as starting point for a such a simulation. Structures over a wide range of similarity can be generated in this way by varying the temperature of the simulation and the used energy function. In this work folding simulations carried out with energy functions trained in this way do not give better results than folding simulations carried out using energy functions trained with threading structures. Furthermore Monte Carlo simulations are used for predicting native protein structures. This is done using different types of energy functions. When doing a folding simulation of the 46 residue protein crambin with an energy function optimized without using this protein a structure with an overlap of q=0.56 and a cRMSD of 6.66A can be obtained. Therefor the simulation ends up in a structure not being native but having similarities to the native structure. The energy function in the simplest form consists out of 210 contact energy parameters (one for each type of amino acid pair). There are several possibilities for extending this type of function. For example one can distinguish between different distances along the sequence of the two amino acids in contact. When looking at the residues i and j the energy parameter for the given types of amino acids is chosen with respect of the distance |j-i|. For example using threading and two different distances (what means the number of contact energy parameters is doubled) improves the recognition for a set of 135 proteins (from which 82 are used as target sequences, so as proteins which have to be recognized) from 70% to 85%. For a set of 420 proteins (with 186 target sequences) the recognition is improved from 52% to 65%.