In the present work algorithms are introduced to classify the ability of peptides to bind or not to bind. We classify ligand peptides of human leukocyte antigen (HLA) -A0201 by a least square optimization method (LSM), which is based on Fisher's linear discriminant. The LSM is capable using either sequence based features or feature vectors of physico-chemical derived quantities or other numerical descriptors like pharmacophore ngerprints [1]. In this work sequence based features and physico-chemical derived features are applied. For the evaluation of HLA-A0201 binding peptides known binding peptides are extracted from public ligand databases [2, 3]. Nonbinding peptides are generated of protein sequences with a randomized approach and a counter check with known binding peptides. For learning and prediction of HLA-A0201 binding peptides sequence based feature vectors are used. The LSM performs well for recognition and prediction of A0201 binding peptides compared to well established methods like support vector machine (SVM) [4]. Due to regularization terms the LSM performs good even in situations where learning data sets are small compared to the size of the available parameters or very asymmetric learning sets regarding the composition between binding and non-binding peptides. In the case of asymmetric learning sets it even can outperform the SVM. For a in depth understanding of the binding of peptides to HLA-A0201 several crystal structures of this allele together with dierent ligand peptides bound have been examined in this work. Furthermore the results have been compared to crystal structures containing besides the HLAA0201 and the ligand peptide a T-Cell receptor (TCR) attached. For allele A0201 it could be found that N- and C- terminal residues of the bound peptide are closely attached to the HLA protein, while the central part is more exibel to move in the HLA binding groove. The central part of the ligand peptide interacts predominantly with an attached TCR. The Comparative Evaluation of Prediction Algorithms 2006 (CoEPrA) [5] is a competition for classication in machine learning. In four classication tasks learning and prediction sets of peptides were provided, which can be used for a binding prediction. Each data set provides sequence and physico-chemical features such that both type of descriptors could be used for the LSM. With sequence based features and a feature reduction based on principle component analysis (PCA) rankings in the top or middle eld of the competition have been reached using the LSM. The application of the physico-chemical features required a strategy of feature reduction or selection since 643 physico-chemical features are provided per residue position. For feature reduction a lambda regularization term or the PCA was used. Results for the four dierent CoEPrA tasks achieved by the application of feature reduction and physico-chemical features are similar to the results obtained from the usage of sequence based features. In the last part of this work a genetic algorithm (GA) is used for feature selection on the example of the four CoEPrA tasks. Small sets of features are selected to perform learning and prediction based on the LSM approach. The GA is generating a number of these feature sets called individuals. At the end of a GA run an enrichment of good performing feature sets can be observed. The difficulty to discriminate between good performing individuals and individuals, which show learning by heart could not be solved reliably with dierent approaches tested in this work. Best performing individuals, which are generated for all four CoEPrA tasks are capable to reach a top ranking in the competition but it was not possible to identify those individuals with a satisfying accuracy.
In der vorliegenden Arbeit werden Algorithmen vorgestellt, die zur Bindungsklassifizierung von Peptiden als mögliche Liganden benutzt werden. Die Differenzierung zwischen bindenden und nichtbindenden Peptiden ist in der Biochemie und der medizinischen Chemie von besonderer Bedeutung. In dieser Arbeit werden immun aktive Peptide (Antigene) untersucht, die an das Human Leukocyte Antigen (HLA) des Typs A-0201 binden. Dieser Komplex ist Teil des menschlichen Immunsystems und dient zur Erkennung und Abwehr von fremden Proteinen in körpereigenen Zellen. Die Klassifizierung der Peptide erfolgt durch die Methode der kleinsten Quadrate (LSM), die auf dem Verfahren der linearen Diskrimianzanalyse nach Fisher basiert. Die Methode trainiert bekannte bindende und nichtbindende Peptide, um charakteristische Muster zu lernen und zu verallgemeinern. Die Peptide werden durch Merkmale, sogenannte Feature zu Deskriptoren zusammengefasst, welche mit den Vorhersageklassen (hier bindend und nichtbindend) korreliert werden sollen. Als Feature können sequenzbasierte Feature, physiko-chemische Feature oder andere numerische Feature wie "pharmacophore Fingerprints" benutzt werden. Im ersten Teil der Arbeit werden Sequenzen bekannter HLA-A0201 bindender Peptide aus öffentlich zugänglichen Datenbanken extrahiert. Nichtbindende Sequenzen werden zufällig aus der Sequenz von Proteinen generiert und um bekannte bindende Sequenzen bereinigt. Die erreichte Vorhersagegenauigkeit wird mit der alternativen Methode "Support Vector Machine" (SVM) verglichen. Im direkten Vergleich erreicht die LSM Methode eine ähnlich gute Wiedererkennungs- und Vorhersagegenauigkeit wie die SVM. Der Regularisierungsparameter lambda verhindert das Auswendiglernen von kleinen Lerndatensätzen, wenn die Zahl der verwendeten featurebasierten Parameter hoch ist. Bei asymmetrischen Lerndatensätzen, wo sehr viel mehr Daten einer Klasse vorhanden sind, kann die LSM dank des Gewichtungsfaktors w+ die SVM ausspielen. Vorhersage- und Wiedererkennungsrate sind in diesem Fall bei der LSM besser, können bei der SVM jedoch durch eine manuelle Korrektur ausgeglichen werden. Im zweiten Teil der Arbeit werden Kristallstrukturen von HLA-A0201 mit gebundenen Peptiden unterschiedlicher Sequenz untersucht und verglichen mit Kristallstrukturen von HLA-A0201 die neben dem Peptidliganden einen gebundenen T-Zellrezeptor (TCR) enthalten. Für die Bindung des Peptids an das HLA-A0201 spielen Wechselwirkungen mit den N- und C- terminalen Peptidresiduen eine große Rolle. Die zentralen Residuen des Peptids weisen eine erhöhte Flexibilität in der Bindungstasche des A0201 Proteins auf. Dieser zentrale Bereich um die Positionen 4, 5 und 6 wechselwirkt mit einem vorhandenen TCR. Dabei werden Wechselwirkungen zwischen TCR und den Seitenkettenatomen des Peptids eingegangen. Im letzten Teil der Arbeit werden Datensätze aus dem Bindungsvorhersagewettbewerb CoEPrA 2006 mit der LSM Methode untersucht. CoEPrA 2006 stellt in vier Klassifikationsaufgaben Lern- und Vorhersagedatensätze von Peptiden mit Sequenzdaten und jeweils 643 physiko- chemische Feature pro Sequenzposition zur Verfügung. Anhand von sequenzbasierten Features und einer Featurereduktion mittels lambda- Regularisierung oder Principle Component Analysis (PCA) werden Vorhersageergebnisse erzielt, die für eine Platzierung im Mittelfeld bis oberen Drittel des Teilnehmerfeldes von CoEPrA2006 reichen. Ähnliche Ergebnisse lassen sich mit den physiko-chemischen Features und einer Featurereduktion erreichen. Mithilfe eines genetischen Algorithmus (GA) wird Featureselektion anhand der physiko- chemischen Feature der CoEPrA Datensätze betrieben, um eine gezielte Reduktion des Parameterraumes zu erreichen. Dabei werden kleine Sätze von Features ausgewählt, die für die LSM zum Lernen und zur Vorhersage verwendet werden. Der GA erzeugt eine Reihe solcher Featuresätze, die Individuen genannt werden. Am Ende des GA wird eine Anreicherung von Individuen mit hoher bis guter Vorhersagegenauigkeit erzielt. Als Schwierigkeit stellt sich jedoch die Unterscheidung von Individuen mit guter Vorhersagegenauigkeit und solchen Individuen, die auswendig lernen heraus, da Letztere in der Wiedererkennung und damit in der Testvorhersage gute bis sehr gute Ergebnisse erzielen. Die besten Individuen, die in den vier CoEPrA Aufgaben mit dem GA erzeugt werden sind gut genug, um ein Topplatzierung in der Bestenliste der Teilnehmer zu erreichen. Jedoch erlaubt keines der getesteten Verfahren in allen vier Aufgaben eine eindeutige Identifizierung der guten bis sehr guten Individuen aus der letzten Generation des GA.