The proteins perform their functions in associated cellular locations. Therefore, subcellular location is a key-feature in the functional characterization of proteins. The experimental methods of determining a protein's subcellular location are costly, time consuming, error prone and can not cope with exponentially growing genomic and proteomic data. Therefore, computational prediction of protein subcellular location is a major effort in bioinformatics research. Subcellular location of a protein can be predicted either from its sequence by identifying the targeting peptide and motifs, or by homology to proteins of known location. Another approach, which is complementary, exploits the differences in amino acid composition of proteins associated to different cellular locations. This is an especially useful approach if motif and homology information are missing. In this study, we expand this approach taking into account amino acid composition at different levels of amino acid exposure. Through careful selection and data integration we created a high quality dataset of proteins with known structure and location. The members of three subcellular location categories were considered: nuclear, cytoplasmic and extracellular, plus the extra category nucleocytoplasmic, accounting for the fact that a large number of proteins shuttle between nucleus and cytoplasm. We explored the relationship between residue exposure and protein subcellular location. The analysis demonstrated that amino acids at different levels of exposure have signal about the location of proteins. For the classification purpose we applied a novel approach of two stage classification. At stage one, multiple Support Vector Machines (SVMs) were trained to score eukaryotic protein sequences for membership to each location class. In stage two, an artificial neural network (ANN) was used to propose a category from the scores assigned to the four locations in stage one. The method reaches an accuracy of 68% when using as input 3D-derived values of amino acid exposure. Calibration of the method using predicted values of amino acid exposure allows classifying proteins without 3D-information with an accuracy of 62%. The algorithm is implemented as the web server 'NYCE'. We compared the performance of NYCE against other state-of-the-art subcellular location prediction tools. The comparison revealed the fact that 'NYCE' performs reasonably well compared to other tools, though using a limited set of information. A major challenge of protein subcellular location prediction methods based on homology is that there are very similar proteins that act in different subcellular locations. Using pairs of paralog proteins experimentally known to be in different locations, we demonstrated that our algorithm can evaluate proteins independently of their homology. NYCE can discern proteins in different locations even if they share high levels of identity whereas other tools fail to do so.
Proteine können ihre Funktion nur in bestimmten intrazellulären Kompartimenten erfüllen, deshalb ist die subzelluläre Lokalisation ein wichtiges Merkmal der funktionellen Charakterisierung von Proteinen. Die experimentellen Methoden zur Bestimmung der subzellulären Lokalisation von Proteinen sind teuer, zeitintensiv, fehleranfällig und können nicht mit der exponentiell anwachsenden Menge an genomischen und proteomischen Daten mithalten. Deshalb ist die computergestützte Vorhersage der intrazellulären Lokalisation von Proteinen ein wichtiges Ziel der bioinformatischen Forschung. Die Lokalisation eines Proteins kann entweder aus dessen Sequenz vorhergesagt werden oder durch das Heranziehen homologer Proteine deren Lokalisation schon bekannt ist. Ein anderer, komplementärer Ansatz nutzt die Aminosäurezusammensetzung von verschieden lokalisierten Proteinen. In dieser Arbeit erweitern wir diesen Ansatz, indem wir die Aminnosäurezusammensetzung in Zusammenhang damit betrachten, wie gut die Aminosäuren aufgrund der Proteinstruktur von außen zugänglich sind. Es wurden vier Kategorien der subzellulären Lokalisation in die Untersuchungen einbezogen: nukleär, zytoplasmatisch, extrazellulär und nukleo-zytoplasmatisch. Wir haben einen qualitativ hochwertigen Datensatz zusammengestellt, der Proteine mit bekannter Struktur und Lokalisation enthält und den Zusammenhang zwischen der Zugänglichkeit der Aminosäuren und der subzellulären Lokalisation des Proteins untersucht. Diese Analyse zeigte, dass Aminosäuren mit verschiedenen Zugänglichkeiten zur Vorhersage der Lokalisation von Proteinen genutzt werden können. Zum Zweck der Klassifizierung haben wir einen neuartigen Ansatz, basierend auf einer zweistufigen Klassifizierung, verwendet. In der ersten Stufe werden Support Vector Machines trainiert, die Wahrscheinlichkeit der Zugehörigkeit (Score) für alle Klassen anhand der Proteinsequenzen zu berechnen. Die zweite Stufe, ein künstliches neuronales Netzwerk, wird benutzt um eine Kategorie auf der Grundlage der vorher berechneten Scores für die vier möglichen Lokalisationen vorzuschlagen. Diese Methode erreicht eine Präzision von 68% wenn auf 3D-Strukturen basierende Werte für die Zugänglichkeit der Aminosäuren benutzt werden. Die Kalibrierung der Methode mithilfe theoretisch berechneter Werte für die Zugänglichkeit der Aminosäuren ermöglicht eine Klassifizierung der Proteine ohne 3D-Information mit einer Präzision von 62%. Der Algorithmus wurde als der Webserver “NYCE” implementiert. Ein Vergleich von “NYCE” mit anderen modernen Vorhersageprogrammen zeigte eine gute Leistung. Ein großes Problem der auf Homologie basierenden Vorhersageprogramme ist die Existenz von Proteinen mit sehr ähnlicher Sequenz aber unterschiedlicher subzellulärer Lokalisation. Anhand paraloger Proteine, welche unterschiedliche Lokalisation aufweisen, konnten wir zeigen dass “NYCE” - im Gegensatz zu anderen Vorhersageprogrammen - zwischen Proteinen mit großer Sequenzähnlichkeit aber verschiedener Lokalisation unterscheiden kann. Unser Ansatz kann in Zukunft für die Vorhersage der Lokalisation von Proteinen in anderen Kompartimenten und in nicht-eukaryotischen Organismen nützlich sein. Wir erwarten, dass solch eine Erweiterung unserer Methode durch die wachsende Anzahl von in Datenbanken verfügbaren Proteinstrukturen und Proteinen mit experimentell bestätigter Lokalisation erleichtert wird.