Proteins are essential constituents of living organisms. Most proteins fold into unique structures determined by the sequence of amino acids composing them. In three-dimensional protein structures, regularly recurrent local structural motifs like alpha-helices and beta-sheets can often be identified. Such local arrangements are collectively called secondary structure, while the way in which a polypeptide chain finally folds in the three-dimensional space is called tertiary structure. Since the structure of a protein plays such a central role for its function within living organisms, it is subject of great interest. Experimental techniques have been developed to investigate it, but are relatively expensive and time consuming. As a consequence, the need is increasingly felt for theoretical structure prediction methods. Predicting the structure of proteins is a very difficult task. Several protein structure prediction methods exist to date. A considerable aid is provided to these methods if a prediction of the secondary structure of the protein is available beforehand. Reliable secondary structure information can be employed, for example, to build safe starting cores in fold simulation programs or structural constraints in protein threading and homology modelling searches. Aim of this project was to develop a new tool to predict protein secondary structure from the amino acid sequence. The method employed is of statistical nature and relies on existing protein data. The primary structure was input in the form of PSI-BLAST profiles. The secondary structure information used to instruct the program was extracted from atomic coordinates using DSSP. Though secondary structure prediction is a three-choice classification problem, the approach adopted was to consider all motifs separately and reduce it to the sum of three single-choice classification problems. This is done by grouping all the motifs that are not the one of interest into a single class and having the program learn a set of rules to respectively sort the one of interest out. It turns out that each set of rules won through this procedure provides a means of measuring the likelihood that some amino acid sequence be associated to the corresponding secondary structure motif. Once all the needed sets of this kind are available, a direct comparison of the likelihoods attainable from them allows to solve the three-choice classification problem. In more recent developments a neural network was deployed to make the best sense out of the likelihood scores and perform the three-choice prediction based on them. In a ten-fold cross-validation based on the release 1.71 of Astral40, the current version of the program achieved an average accuracy of about 82% in predicting which secondary structure motif among helix, strand and coil (none), a residue adopts. Other prediction tests carried out on the release 1.73 of Astral40 show that the developed secondary structure predictor can compete with a celebrated predictor like PSIPRED.
Proteine sind wesentliche Bestandteile von lebenden Organismen. Die meisten Proteine falten sich in einzigartigen Strukturen, die von der Sequenz der bildenden Aminosäuren bestimmt werden. In dreidimensionalen Proteinstrukturen treten regelmässig wiederkehrende lokale strukturelle Motive wie alpha-Helices und beta-Strands oft auf. Solche lokalen Anordungen werden in ihrer Gesamtheit als Sekundärstruktur bezeichnet, während die Art und Weise, in der sich eine Polypeptidkette schliesslich im dreidimensionalen Raum faltet, Tertiärstruktur genannt wird. Da die Struktur eines Proteins eine so zentrale Rolle für die Funktion des Proteins selbst in lebenden Organismen spielt, ist sie von grossem Interesse. Experimentelle Techniken wurden entwickelt, um sie zu untersuchen. Diese sind aber relativ teuer und zeitaufwendig. Daher ist eine wachsende Notwendigkeit für theoretische Methoden zur Strukturvorhersage zu spüren. Proteinstrukturvorhersage ist eine sehr schwierige Aufgabe. Mehrere Methoden sind bis heute entwickelt worden. Eine wichtige Beihilfe für diese Methoden entsteht, wenn eine Sekundärstrukturvorhersage vorhanden ist. Zuverlässige Sekundärstrukturinformation kann zum Beispiel zum Aufbau von sicheren Kernen in Fold-Simulationsprogrammen oder strukturellen Beschränkungen in Protein Threading und Homology-Modelling-Suchen eingesetzt werden. Ziel dieses Projektes war es, ein neues Instrument für die Proteinsekundärstrukturvorhersage aus der Sequenz der Aminosäuren zu entwickeln. Die angewendete Methode ist von statistischer Natur und basiert auf bestehenden Proteindaten. Die Primärstruktur wurde in Form von PSI-BLAST- Profilen betrachtet. Die zum Lernen eingesetzte Sekundärstruktur wurde aus den Atomkoordinaten durch DSSP hergeleitet. Obwohl Sekundärstrukturvorhersage ein Dreiklassenproblem ist, war der angennommene Ansatz alle Motive einzeln zu betrachten und es in die Summe von drei Zweiklassenprobleme umzuwandeln. Dies ist durch Gruppieren der jeweils nicht betrachteten Motive zu einer einzigen Klasse und das Lernen von Regeln, um das betrachtete Motiv auszusortieren, erfolgt. Es stellt sich heraus, dass jeder durch ein solches Verfahren gewonnene Regelsatz ein Mittel zur Messung der Wahrscheinlichkeit, dass eine Aminosäuresequenz zu der entsprechenden Sekundärstruktur führt, darstellt. Sobald alle benötigten Regelsätze dieser Art zur Verfügung stehen, ermöglicht ein direkter Vergleich der durch diese bestimmten Wahrscheinlichkeiten, das Dreiklassenproblem zu lösen. In der letzten Entwicklung wurde ein neuronales Netz eingesetzt, um die Wahrscheinlichkeiten zu verbessern und die Dreifachklassifizierung durchzuführen. In einer auf der Version 1.71 von Astral40 basierenden zehnfachen Kreuzvalidierung erreichte die aktuelle Version des Programms eine durchschnittliche genauigkeit von ungefähr 82% in der Vorhersage welches von den Motiven, Helix, Strand und Coil (kein Motiv), eine Aminosäure einnimmt. Weitere Vorhersagetests auf der Version 1.73 von Astral40 zeigen, dass die in diesem Projekt entwickelte Sekundärstrukturvorhersage-Software in der Lage ist, auf dem gleichen Niveau wie ein etabliertes Programm wie PSIPRED zu arbeiten.