dc.contributor.author
Bettella, Francesco
dc.date.accessioned
2018-06-07T18:27:45Z
dc.date.available
2009-12-09T08:33:44.922Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/5059
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-9258
dc.description.abstract
Proteins are essential constituents of living organisms. Most proteins fold
into unique structures determined by the sequence of amino acids composing
them. In three-dimensional protein structures, regularly recurrent local
structural motifs like alpha-helices and beta-sheets can often be identified.
Such local arrangements are collectively called secondary structure, while the
way in which a polypeptide chain finally folds in the three-dimensional space
is called tertiary structure. Since the structure of a protein plays such a
central role for its function within living organisms, it is subject of great
interest. Experimental techniques have been developed to investigate it, but
are relatively expensive and time consuming. As a consequence, the need is
increasingly felt for theoretical structure prediction methods. Predicting the
structure of proteins is a very difficult task. Several protein structure
prediction methods exist to date. A considerable aid is provided to these
methods if a prediction of the secondary structure of the protein is available
beforehand. Reliable secondary structure information can be employed, for
example, to build safe starting cores in fold simulation programs or
structural constraints in protein threading and homology modelling searches.
Aim of this project was to develop a new tool to predict protein secondary
structure from the amino acid sequence. The method employed is of statistical
nature and relies on existing protein data. The primary structure was input in
the form of PSI-BLAST profiles. The secondary structure information used to
instruct the program was extracted from atomic coordinates using DSSP. Though
secondary structure prediction is a three-choice classification problem, the
approach adopted was to consider all motifs separately and reduce it to the
sum of three single-choice classification problems. This is done by grouping
all the motifs that are not the one of interest into a single class and having
the program learn a set of rules to respectively sort the one of interest out.
It turns out that each set of rules won through this procedure provides a
means of measuring the likelihood that some amino acid sequence be associated
to the corresponding secondary structure motif. Once all the needed sets of
this kind are available, a direct comparison of the likelihoods attainable
from them allows to solve the three-choice classification problem. In more
recent developments a neural network was deployed to make the best sense out
of the likelihood scores and perform the three-choice prediction based on
them. In a ten-fold cross-validation based on the release 1.71 of Astral40,
the current version of the program achieved an average accuracy of about 82%
in predicting which secondary structure motif among helix, strand and coil
(none), a residue adopts. Other prediction tests carried out on the release
1.73 of Astral40 show that the developed secondary structure predictor can
compete with a celebrated predictor like PSIPRED.
de
dc.description.abstract
Proteine sind wesentliche Bestandteile von lebenden Organismen. Die meisten
Proteine falten sich in einzigartigen Strukturen, die von der Sequenz der
bildenden Aminosäuren bestimmt werden. In dreidimensionalen Proteinstrukturen
treten regelmässig wiederkehrende lokale strukturelle Motive wie alpha-Helices
und beta-Strands oft auf. Solche lokalen Anordungen werden in ihrer Gesamtheit
als Sekundärstruktur bezeichnet, während die Art und Weise, in der sich eine
Polypeptidkette schliesslich im dreidimensionalen Raum faltet, Tertiärstruktur
genannt wird. Da die Struktur eines Proteins eine so zentrale Rolle für die
Funktion des Proteins selbst in lebenden Organismen spielt, ist sie von
grossem Interesse. Experimentelle Techniken wurden entwickelt, um sie zu
untersuchen. Diese sind aber relativ teuer und zeitaufwendig. Daher ist eine
wachsende Notwendigkeit für theoretische Methoden zur Strukturvorhersage zu
spüren. Proteinstrukturvorhersage ist eine sehr schwierige Aufgabe. Mehrere
Methoden sind bis heute entwickelt worden. Eine wichtige Beihilfe für diese
Methoden entsteht, wenn eine Sekundärstrukturvorhersage vorhanden ist.
Zuverlässige Sekundärstrukturinformation kann zum Beispiel zum Aufbau von
sicheren Kernen in Fold-Simulationsprogrammen oder strukturellen
Beschränkungen in Protein Threading und Homology-Modelling-Suchen eingesetzt
werden. Ziel dieses Projektes war es, ein neues Instrument für die
Proteinsekundärstrukturvorhersage aus der Sequenz der Aminosäuren zu
entwickeln. Die angewendete Methode ist von statistischer Natur und basiert
auf bestehenden Proteindaten. Die Primärstruktur wurde in Form von PSI-BLAST-
Profilen betrachtet. Die zum Lernen eingesetzte Sekundärstruktur wurde aus den
Atomkoordinaten durch DSSP hergeleitet. Obwohl Sekundärstrukturvorhersage ein
Dreiklassenproblem ist, war der angennommene Ansatz alle Motive einzeln zu
betrachten und es in die Summe von drei Zweiklassenprobleme umzuwandeln. Dies
ist durch Gruppieren der jeweils nicht betrachteten Motive zu einer einzigen
Klasse und das Lernen von Regeln, um das betrachtete Motiv auszusortieren,
erfolgt. Es stellt sich heraus, dass jeder durch ein solches Verfahren
gewonnene Regelsatz ein Mittel zur Messung der Wahrscheinlichkeit, dass eine
Aminosäuresequenz zu der entsprechenden Sekundärstruktur führt, darstellt.
Sobald alle benötigten Regelsätze dieser Art zur Verfügung stehen, ermöglicht
ein direkter Vergleich der durch diese bestimmten Wahrscheinlichkeiten, das
Dreiklassenproblem zu lösen. In der letzten Entwicklung wurde ein neuronales
Netz eingesetzt, um die Wahrscheinlichkeiten zu verbessern und die
Dreifachklassifizierung durchzuführen. In einer auf der Version 1.71 von
Astral40 basierenden zehnfachen Kreuzvalidierung erreichte die aktuelle
Version des Programms eine durchschnittliche genauigkeit von ungefähr 82% in
der Vorhersage welches von den Motiven, Helix, Strand und Coil (kein Motiv),
eine Aminosäure einnimmt. Weitere Vorhersagetests auf der Version 1.73 von
Astral40 zeigen, dass die in diesem Projekt entwickelte
Sekundärstrukturvorhersage-Software in der Lage ist, auf dem gleichen Niveau
wie ein etabliertes Programm wie PSIPRED zu arbeiten.
de
dc.format.extent
IV, 140 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
secondary structure predictor
dc.subject
multiple linear regression
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::572 Biochemie
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke
dc.title
Protein secondary structure prediction using optimized scoring functions
dc.contributor.contact
france@chemie.fu-berlin.de
dc.contributor.firstReferee
Knapp, Ernst Walter
dc.contributor.furtherReferee
Torda, Andrew
dc.date.accepted
2009-11-27
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000014463-0
dc.title.subtitle
a comparative statistical method
dc.title.translated
Protein-Sekundärstruktur-Vorhersage mittels optimierter Scoring-Funktionen
de
dc.title.translatedsubtitle
Ein komparatives Statistisches Verfahren
de
refubium.affiliation
Biologie, Chemie, Pharmazie
de
refubium.mycore.fudocsId
FUDISS_thesis_000000014463
refubium.mycore.derivateId
FUDISS_derivate_000000006685
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access