Knowing a proteins structure is an essential prerequisite for understanding its function. The rate of protein sequencing greatly exceeds the rate by which protein structures can be experimentally solved. Methods to predict the protein structure based on the sequence are therefore in great demand. The prediction of the protein secondary structure is the first step in predicting the spatial structure. In addition, the knowledge of the secondary structure allows to characterize a protein into a structure category. In this work a new protein secondary structure prediction method, *SPARROW+, is presented. *SPARROW+ is a further development of its predecessor *SPARROW (Rasinski, 2011). Like its predecessor, a vector valued classifier is used for prediction. The vector valued classifier allows to project high dimensional input data into a low dimensional classification space. Through the relative orientation of the vector valued classifier to class vectors, input data are classified. *SPARROW+ consists of two consecutive prediction steps. Based on a target sequence a PSI BLAST (Altschul et al., 1997) sequence profile is generated, which together with the protein sequence is the input of the first prediction step. The results of secondary structure prediction from the first step and the PSI BLAST profile are the combined input for the second prediction step. *SPARROW+ achieves a Q3 accuracy of 84 % for the ASTRAL40 (Fox et al., 2014) dataset and an at least 1 % higher Q3 accuracy than the respective second best method for the CASP9, 10 and 11 datasets. Hence, *SPARROW+ is currently superior to all presently available methods, like PSIPRED (Buchan et al., 2013). In its current form, *SPARROW+ overestimates the coil class, the largest secondary structure class, at the expense of the strand class, which is the smallest class. This results in a high Q3 accuracy for coil and low one for strand. However, the Matthews Correlation Coefficient (MCC) (Gorodkin, 2004) is similar for both classes. During the Development of *SPARROW+ central parameters with a major influence on the prediction quality could be identified. To these parameters belong the choice of the BLAST (Altschul et al., 1990) database for the generation of the sequence profiles with PSI BLAST and the class reduction scheme to reduce the eight DSSP (Kabsch and Sander, 1983) classes to three. Using the UniRef90 (Suzek et al., 2014) BLAST database containing only homologs with 90 % sequence identity and filtering it with pfilt (Jones and Swindells, 2002) to remove transmembrane and unordered proteins, improved prediction quality. *SPARROW+ uses a class reduction scheme that accounts for the peculiarities of DSSP and new insights concerning the π helix secondary structure. During the implementation of the enhancements of *SPARROW+ it became obvious that the size of the sequence window is of critical importance for the prediction quality. The gains in prediction quality through enhancements of the vector valued classifier, such as a second prediction step or the combination different types of input data, depend on the window size. The smaller the considered sequence window, the greater the corresponding gains in prediction quality. Therefore, the enhancements reduce the prediction quality gained with an increase of the window sizes. Specifically for the vector valued classifier of *SPARROW+ a multiclass confidence measure was developed. The confidence can be correlated to prediction quality measures allowing to predict them. From a confidence of 0.8 a Q3 accuracy of 90 % can be expected. Furthermore, the vector valued classifiers show different confidence distributions for true and false positive classifications.
Kenntnisse über die Struktur eines Proteins sind von größter Bedeutung um dessen Funktion zu verstehen. Die Geschwindigkeit mit der Proteinsequenzen bestimmt werden überschreitet bei weitem die Rate mit der Proteinstrukturen experimentell gelöst werden. Deshalb sind Methoden, um die Proteinstruktur an Hand seiner Sequenz vorherzusagen, sehr gefragt. Die Vorhersage der Sekundärstruktur von Proteinen ist der erste Schritt, um dessen dreidimensionale räumliche Struktur vorherzusagen. Weiterhin erlaubt die Kenntnis über die Sekundärstruktur eines Proteins dessen Zuordnung in eine Faltungsklasse. In dieser Arbeit wird ein neues Programm, *SPARROW+, zur Vorhersage der Sekundärstruktur von Proteinen vorgestellt. *SPARROW+ ist die Weiterentwicklung seines Vorgänger *SPARROW (Rasinski, 2011). Wie sein Vorgänger wird für die Vorhersage ein vektorwertiger Klassifikator verwendet. Dieser Klassifikator erlaubt hoch dimensionale Eingangsdaten in einen niedrig dimensionalen Raum zu projizieren. Die Klassifizierung der Eingangsdaten erfolgt durch die relative Orientierung des vektorwertigen Klassifikators zu Klassenvektoren. *SPARROW+ besteht in zwei aufeinander folgenden Vorhersageschritten. Aus der Eingangssequenz wird ein PSI BLAST (Altschul et al., 1997) Profil generiert, welches zusammen mit der Sequenz die Eingabe für die erste Stufe ist. Die Vorhersage der ersten Stufe und das PSI BLAST Profil sind die kombinierten Eingangsdaten für die zweite Stufe. *SPARROW+ erreicht eine Q3 Genauigkeit von 84 % auf dem ASTRAL40 (Fox et al., 2014) Datensatz und erzielt auf den CASP9, 10 und 11 Datensätzen eine 1 % höhere Q3 Genauigkeit als die jeweilige zweitbeste Methode. *SPARROW+ ist hiermit allen anderen aktuellen Methoden wie z.B. PSIPRED (Buchan et al., 2013) überlegen. In seiner derzeitigen Form überschätzt *SPARROW+ den Anteil der Coil-Strukturen, die größte Sekundärstrukturklasse, auf Kosten von Strand, der kleinsten Klasse. Dies führt zu einer hohen Q3 Genauigkeit für Coil und einer niedrigen für Strand, wobei der Matthews Correlation Coefficient (MCC) (Gorodkin, 2004) für beide Klassen ähnlich ist. Bei der Entwicklung von *SPARROW+ konnten zentrale Parameter ermittelt werden, welche einen großen Einfluss auf die Vorhersagequalität haben. Zu diesen Parametern gehören die Wahl der BLAST (Altschul et al., 1990) Datenbank für die Generierung der Sequenzprofile mit PSI BLAST und das Reduktionsschema um die acht DSSP (Kabsch and Sander, 1983) Klassen auf drei zu reduzieren. Bei der BLAST Datenbank zeigte sich das eine Reduzierung der Homologen von 100 auf 90 % durch Verwendung der UniRef90 (Suzek et al., 2014) Datenbank, sowie das Entfernen von Transmembran und ungeordneten Proteinen mittels pfilt (Jones and Swindells, 2002), die Vorhersagequalität erhöht. *SPARROW+ verwendet ein Reduktionsschema, welches die Eigenheiten von DSSP sowie Erkenntnisse bezüglich der π Helix berücksichtigt. Bei der Implementierung von Erweiterungen für *SPARROW+ zeigte sich, dass für die Vorhersagequalität die Größe des Sequenzfensters von entscheidender Bedeutung ist. Der Gewinn an Vorhersagequalität durch Erweiterungen des vektorwertigen Klassifikators durch eine zweite Stufe oder die Kombination von verschiedenen Typen von Eingangsdaten ist abhängig von der Fenstergröße. Je kleiner das Fenster desto größer ist der Gewinn an Genauigkeit der Vorhersage. Allerdings reduzieren diese Erweiterungen die Verbesserungen der Vorhersagequalität mit zunehmender Fenstergröße. Speziell für den vektorwertigen Klassifikator von *SPARROW+ wurde ein Multi-Klassen Konfidenzmaß entwickelt. Die Konfidenz lässt sich mit Vorhersagequalitätsmaßen korrelieren und ermöglicht so eine Vorhersage von selbigen. Ab einer Konfidenz von 0.8 ist eine Q3 Genauigkeit von 90 % zu erwarten. Weiterhin zeigt sich, dass der vektorwertige Klassifikator unterschiedliche Konfidenzverteilungen aufweist für richtig und falsch positive Klassifikationen.