dc.contributor.author
Riedesel, Henning
dc.date.accessioned
2018-06-07T21:18:54Z
dc.date.available
2009-06-23T07:35:55.913Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/7703
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-11902
dc.description.abstract
In the present work algorithms are introduced to classify the ability of
peptides to bind or not to bind. We classify ligand peptides of human
leukocyte antigen (HLA) -A0201 by a least square optimization method (LSM),
which is based on Fisher's linear discriminant. The LSM is capable using
either sequence based features or feature vectors of physico-chemical derived
quantities or other numerical descriptors like pharmacophore ngerprints [1].
In this work sequence based features and physico-chemical derived features are
applied. For the evaluation of HLA-A0201 binding peptides known binding
peptides are extracted from public ligand databases [2, 3]. Nonbinding
peptides are generated of protein sequences with a randomized approach and a
counter check with known binding peptides. For learning and prediction of
HLA-A0201 binding peptides sequence based feature vectors are used. The LSM
performs well for recognition and prediction of A0201 binding peptides
compared to well established methods like support vector machine (SVM) [4].
Due to regularization terms the LSM performs good even in situations where
learning data sets are small compared to the size of the available parameters
or very asymmetric learning sets regarding the composition between binding and
non-binding peptides. In the case of asymmetric learning sets it even can
outperform the SVM. For a in depth understanding of the binding of peptides to
HLA-A0201 several crystal structures of this allele together with dierent
ligand peptides bound have been examined in this work. Furthermore the results
have been compared to crystal structures containing besides the HLAA0201 and
the ligand peptide a T-Cell receptor (TCR) attached. For allele A0201 it could
be found that N- and C- terminal residues of the bound peptide are closely
attached to the HLA protein, while the central part is more exibel to move in
the HLA binding groove. The central part of the ligand peptide interacts
predominantly with an attached TCR. The Comparative Evaluation of Prediction
Algorithms 2006 (CoEPrA) [5] is a competition for classication in machine
learning. In four classication tasks learning and prediction sets of peptides
were provided, which can be used for a binding prediction. Each data set
provides sequence and physico-chemical features such that both type of
descriptors could be used for the LSM. With sequence based features and a
feature reduction based on principle component analysis (PCA) rankings in the
top or middle eld of the competition have been reached using the LSM. The
application of the physico-chemical features required a strategy of feature
reduction or selection since 643 physico-chemical features are provided per
residue position. For feature reduction a lambda regularization term or the
PCA was used. Results for the four dierent CoEPrA tasks achieved by the
application of feature reduction and physico-chemical features are similar to
the results obtained from the usage of sequence based features. In the last
part of this work a genetic algorithm (GA) is used for feature selection on
the example of the four CoEPrA tasks. Small sets of features are selected to
perform learning and prediction based on the LSM approach. The GA is
generating a number of these feature sets called individuals. At the end of a
GA run an enrichment of good performing feature sets can be observed. The
difficulty to discriminate between good performing individuals and
individuals, which show learning by heart could not be solved reliably with
dierent approaches tested in this work. Best performing individuals, which are
generated for all four CoEPrA tasks are capable to reach a top ranking in the
competition but it was not possible to identify those individuals with a
satisfying accuracy.
de
dc.description.abstract
In der vorliegenden Arbeit werden Algorithmen vorgestellt, die zur
Bindungsklassifizierung von Peptiden als mögliche Liganden benutzt werden. Die
Differenzierung zwischen bindenden und nichtbindenden Peptiden ist in der
Biochemie und der medizinischen Chemie von besonderer Bedeutung. In dieser
Arbeit werden immun aktive Peptide (Antigene) untersucht, die an das Human
Leukocyte Antigen (HLA) des Typs A-0201 binden. Dieser Komplex ist Teil des
menschlichen Immunsystems und dient zur Erkennung und Abwehr von fremden
Proteinen in körpereigenen Zellen. Die Klassifizierung der Peptide erfolgt
durch die Methode der kleinsten Quadrate (LSM), die auf dem Verfahren der
linearen Diskrimianzanalyse nach Fisher basiert. Die Methode trainiert
bekannte bindende und nichtbindende Peptide, um charakteristische Muster zu
lernen und zu verallgemeinern. Die Peptide werden durch Merkmale, sogenannte
Feature zu Deskriptoren zusammengefasst, welche mit den Vorhersageklassen
(hier bindend und nichtbindend) korreliert werden sollen. Als Feature können
sequenzbasierte Feature, physiko-chemische Feature oder andere numerische
Feature wie "pharmacophore Fingerprints" benutzt werden. Im ersten Teil der
Arbeit werden Sequenzen bekannter HLA-A0201 bindender Peptide aus öffentlich
zugänglichen Datenbanken extrahiert. Nichtbindende Sequenzen werden zufällig
aus der Sequenz von Proteinen generiert und um bekannte bindende Sequenzen
bereinigt. Die erreichte Vorhersagegenauigkeit wird mit der alternativen
Methode "Support Vector Machine" (SVM) verglichen. Im direkten Vergleich
erreicht die LSM Methode eine ähnlich gute Wiedererkennungs- und
Vorhersagegenauigkeit wie die SVM. Der Regularisierungsparameter lambda
verhindert das Auswendiglernen von kleinen Lerndatensätzen, wenn die Zahl der
verwendeten featurebasierten Parameter hoch ist. Bei asymmetrischen
Lerndatensätzen, wo sehr viel mehr Daten einer Klasse vorhanden sind, kann die
LSM dank des Gewichtungsfaktors w+ die SVM ausspielen. Vorhersage- und
Wiedererkennungsrate sind in diesem Fall bei der LSM besser, können bei der
SVM jedoch durch eine manuelle Korrektur ausgeglichen werden. Im zweiten Teil
der Arbeit werden Kristallstrukturen von HLA-A0201 mit gebundenen Peptiden
unterschiedlicher Sequenz untersucht und verglichen mit Kristallstrukturen von
HLA-A0201 die neben dem Peptidliganden einen gebundenen T-Zellrezeptor (TCR)
enthalten. Für die Bindung des Peptids an das HLA-A0201 spielen
Wechselwirkungen mit den N- und C- terminalen Peptidresiduen eine große Rolle.
Die zentralen Residuen des Peptids weisen eine erhöhte Flexibilität in der
Bindungstasche des A0201 Proteins auf. Dieser zentrale Bereich um die
Positionen 4, 5 und 6 wechselwirkt mit einem vorhandenen TCR. Dabei werden
Wechselwirkungen zwischen TCR und den Seitenkettenatomen des Peptids
eingegangen. Im letzten Teil der Arbeit werden Datensätze aus dem
Bindungsvorhersagewettbewerb CoEPrA 2006 mit der LSM Methode untersucht.
CoEPrA 2006 stellt in vier Klassifikationsaufgaben Lern- und
Vorhersagedatensätze von Peptiden mit Sequenzdaten und jeweils 643 physiko-
chemische Feature pro Sequenzposition zur Verfügung. Anhand von
sequenzbasierten Features und einer Featurereduktion mittels lambda-
Regularisierung oder Principle Component Analysis (PCA) werden
Vorhersageergebnisse erzielt, die für eine Platzierung im Mittelfeld bis
oberen Drittel des Teilnehmerfeldes von CoEPrA2006 reichen. Ähnliche
Ergebnisse lassen sich mit den physiko-chemischen Features und einer
Featurereduktion erreichen. Mithilfe eines genetischen Algorithmus (GA) wird
Featureselektion anhand der physiko- chemischen Feature der CoEPrA Datensätze
betrieben, um eine gezielte Reduktion des Parameterraumes zu erreichen. Dabei
werden kleine Sätze von Features ausgewählt, die für die LSM zum Lernen und
zur Vorhersage verwendet werden. Der GA erzeugt eine Reihe solcher
Featuresätze, die Individuen genannt werden. Am Ende des GA wird eine
Anreicherung von Individuen mit hoher bis guter Vorhersagegenauigkeit erzielt.
Als Schwierigkeit stellt sich jedoch die Unterscheidung von Individuen mit
guter Vorhersagegenauigkeit und solchen Individuen, die auswendig lernen
heraus, da Letztere in der Wiedererkennung und damit in der Testvorhersage
gute bis sehr gute Ergebnisse erzielen. Die besten Individuen, die in den vier
CoEPrA Aufgaben mit dem GA erzeugt werden sind gut genug, um ein
Topplatzierung in der Bestenliste der Teilnehmer zu erreichen. Jedoch erlaubt
keines der getesteten Verfahren in allen vier Aufgaben eine eindeutige
Identifizierung der guten bis sehr guten Individuen aus der letzten Generation
des GA.
de
dc.format.extent
XIV, 117 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
classification
dc.subject
binding prediction
dc.subject
least square optimization
dc.subject
support vector machine
dc.subject
machine learning
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::572 Biochemie
dc.title
Ligand classification on the example of HLA subtype specific binding epitope
prediction
dc.contributor.firstReferee
Prof. Dr. E. W. Knapp
dc.contributor.furtherReferee
Prof. Dr J. Selbig
dc.date.accepted
2009-06-19
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000010741-0
dc.title.translated
Bindungsklassifizierung von Liganden am Beispiel von HLA-A0201
de
refubium.affiliation
Biologie, Chemie, Pharmazie
de
refubium.mycore.fudocsId
FUDISS_thesis_000000010741
refubium.mycore.derivateId
FUDISS_derivate_000000005793
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access