dc.contributor.author
Mer, Arvind Singh
dc.date.accessioned
2018-06-07T19:44:21Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/6379
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-10578
dc.description.abstract
The proteins perform their functions in associated cellular locations.
Therefore, subcellular location is a key-feature in the functional
characterization of proteins. The experimental methods of determining a
protein's subcellular location are costly, time consuming, error prone and can
not cope with exponentially growing genomic and proteomic data. Therefore,
computational prediction of protein subcellular location is a major effort in
bioinformatics research. Subcellular location of a protein can be predicted
either from its sequence by identifying the targeting peptide and motifs, or
by homology to proteins of known location. Another approach, which is
complementary, exploits the differences in amino acid composition of proteins
associated to different cellular locations. This is an especially useful
approach if motif and homology information are missing. In this study, we
expand this approach taking into account amino acid composition at different
levels of amino acid exposure. Through careful selection and data integration
we created a high quality dataset of proteins with known structure and
location. The members of three subcellular location categories were
considered: nuclear, cytoplasmic and extracellular, plus the extra category
nucleocytoplasmic, accounting for the fact that a large number of proteins
shuttle between nucleus and cytoplasm. We explored the relationship between
residue exposure and protein subcellular location. The analysis demonstrated
that amino acids at different levels of exposure have signal about the
location of proteins. For the classification purpose we applied a novel
approach of two stage classification. At stage one, multiple Support Vector
Machines (SVMs) were trained to score eukaryotic protein sequences for
membership to each location class. In stage two, an artificial neural network
(ANN) was used to propose a category from the scores assigned to the four
locations in stage one. The method reaches an accuracy of 68% when using as
input 3D-derived values of amino acid exposure. Calibration of the method
using predicted values of amino acid exposure allows classifying proteins
without 3D-information with an accuracy of 62%. The algorithm is implemented
as the web server 'NYCE'. We compared the performance of NYCE against other
state-of-the-art subcellular location prediction tools. The comparison
revealed the fact that 'NYCE' performs reasonably well compared to other
tools, though using a limited set of information. A major challenge of protein
subcellular location prediction methods based on homology is that there are
very similar proteins that act in different subcellular locations. Using pairs
of paralog proteins experimentally known to be in different locations, we
demonstrated that our algorithm can evaluate proteins independently of their
homology. NYCE can discern proteins in different locations even if they share
high levels of identity whereas other tools fail to do so.
de
dc.description.abstract
Proteine können ihre Funktion nur in bestimmten intrazellulären Kompartimenten
erfüllen, deshalb ist die subzelluläre Lokalisation ein wichtiges Merkmal der
funktionellen Charakterisierung von Proteinen. Die experimentellen Methoden
zur Bestimmung der subzellulären Lokalisation von Proteinen sind teuer,
zeitintensiv, fehleranfällig und können nicht mit der exponentiell
anwachsenden Menge an genomischen und proteomischen Daten mithalten. Deshalb
ist die computergestützte Vorhersage der intrazellulären Lokalisation von
Proteinen ein wichtiges Ziel der bioinformatischen Forschung. Die Lokalisation
eines Proteins kann entweder aus dessen Sequenz vorhergesagt werden oder durch
das Heranziehen homologer Proteine deren Lokalisation schon bekannt ist. Ein
anderer, komplementärer Ansatz nutzt die Aminosäurezusammensetzung von
verschieden lokalisierten Proteinen. In dieser Arbeit erweitern wir diesen
Ansatz, indem wir die Aminnosäurezusammensetzung in Zusammenhang damit
betrachten, wie gut die Aminosäuren aufgrund der Proteinstruktur von außen
zugänglich sind. Es wurden vier Kategorien der subzellulären Lokalisation in
die Untersuchungen einbezogen: nukleär, zytoplasmatisch, extrazellulär und
nukleo-zytoplasmatisch. Wir haben einen qualitativ hochwertigen Datensatz
zusammengestellt, der Proteine mit bekannter Struktur und Lokalisation enthält
und den Zusammenhang zwischen der Zugänglichkeit der Aminosäuren und der
subzellulären Lokalisation des Proteins untersucht. Diese Analyse zeigte, dass
Aminosäuren mit verschiedenen Zugänglichkeiten zur Vorhersage der Lokalisation
von Proteinen genutzt werden können. Zum Zweck der Klassifizierung haben wir
einen neuartigen Ansatz, basierend auf einer zweistufigen Klassifizierung,
verwendet. In der ersten Stufe werden Support Vector Machines trainiert, die
Wahrscheinlichkeit der Zugehörigkeit (Score) für alle Klassen anhand der
Proteinsequenzen zu berechnen. Die zweite Stufe, ein künstliches neuronales
Netzwerk, wird benutzt um eine Kategorie auf der Grundlage der vorher
berechneten Scores für die vier möglichen Lokalisationen vorzuschlagen. Diese
Methode erreicht eine Präzision von 68% wenn auf 3D-Strukturen basierende
Werte für die Zugänglichkeit der Aminosäuren benutzt werden. Die Kalibrierung
der Methode mithilfe theoretisch berechneter Werte für die Zugänglichkeit der
Aminosäuren ermöglicht eine Klassifizierung der Proteine ohne 3D-Information
mit einer Präzision von 62%. Der Algorithmus wurde als der Webserver “NYCE”
implementiert. Ein Vergleich von “NYCE” mit anderen modernen
Vorhersageprogrammen zeigte eine gute Leistung. Ein großes Problem der auf
Homologie basierenden Vorhersageprogramme ist die Existenz von Proteinen mit
sehr ähnlicher Sequenz aber unterschiedlicher subzellulärer Lokalisation.
Anhand paraloger Proteine, welche unterschiedliche Lokalisation aufweisen,
konnten wir zeigen dass “NYCE” - im Gegensatz zu anderen Vorhersageprogrammen
- zwischen Proteinen mit großer Sequenzähnlichkeit aber verschiedener
Lokalisation unterscheiden kann. Unser Ansatz kann in Zukunft für die
Vorhersage der Lokalisation von Proteinen in anderen Kompartimenten und in
nicht-eukaryotischen Organismen nützlich sein. Wir erwarten, dass solch eine
Erweiterung unserer Methode durch die wachsende Anzahl von in Datenbanken
verfügbaren Proteinstrukturen und Proteinen mit experimentell bestätigter
Lokalisation erleichtert wird.
de
dc.format.extent
VI, 121 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
protein subcellular location
dc.subject
amino acid exposure
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::572 Biochemie
dc.title
Prediction of Protein Subcellular Location using Residue Exposure
dc.contributor.firstReferee
Prof. Dr. Knapp
dc.contributor.furtherReferee
Dr. Andrade
dc.date.accepted
2014-03-26
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000096489-8
dc.title.translated
Vorhersage der subzellulären Lokalisation von Proteinen mittels der
Zugänglichkeit von Aminosäuren
de
refubium.affiliation
Biologie, Chemie, Pharmazie
de
refubium.mycore.fudocsId
FUDISS_thesis_000000096489
refubium.mycore.derivateId
FUDISS_derivate_000000015060
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access