Introduction The proteasome is a vital cell organelle, which generates the majority of antigenic peptides within the MHC I (major histocompatibility complex) pathway. Accordingly, a deeper understanding of its properties and behavior may lead to new developments in cancer therapy, vaccine design or the treatment of viral infections. The proteasome inhibitor bortezomib for example was one of the first FDA-approved drugs directly targeting the proteasome and is successfully used in the treatment of relapsed myeloma. Even though the proteasome’s structure has been examined in detail, the factors and conditions relevant for its cleavage behavior still remain unclear for the most part. Methods This work aims to deepen the understanding of the proteasome’s cleavage behavior using a machine learning approach: data of in vitro experiments gathered at the institute of biochemistry of the Charité Berlin was used as training data in order to learn a model classifying proteasomal cleavage products using a decision tree algorithm. The main advantage of the decision tree algorithm compared to other approaches like neural networks or support vector machines is the comprehensibility of its model: The decisions that make up the learned classification can be displayed in form of a tree or simple if-then-rules with good human readability. This way a model was created, which not only allows the prediction of fragments created by the proteasome but also makes it possible to understand, which properties of the substrate are important for the model’s classification. Results 28 different decision trees were created using various sets of training data as well as different sets of substrate attributes. Cross validation showed that the trees classified the training data correctly. The possibilities for validation with in vivo data are limited, since only data of CTL epitopes, which are no direct products of a proteasome’s digestion process, is available. Still validation of the decision trees with CTL epitope data gave plausible results. No property or class of properties showed to be distinctly relevant for the proteasome’s cleavage behavior. The different decision trees classified the data using a variety of different properties.
Einleitung Das Proteasom ist ein lebenswichtiges Zell-Organell, das die Mehrheit anitgener Peptide im MHC I (major histocompatibility complex) Pathway produziert. Dementsprechend bietet ein genaueres Verständnis seiner Eigenschaften und seines Verhaltens das Potenzial für neue Entwicklungen im Bereich der Therapie maligner und viraler Erkrankungen, sowie beim Design neuer Vakzine. Der Proteasom-Inhibitor Bortezomib war beispielsweise das erste zugelassene Medikament mit dem Proteasom als direkter Zielstruktur und wird erfolgreich in der Therapie des multiplen Myeloms angewandt. Auch wenn die Struktur des Proteasoms bereits ausführlich untersucht wurde, bleiben die Faktoren und Bedingungen, die das Schnittverhalten des Proteasoms beeinflussen, nach wie vor weithin unbekannt. Methodik Das Ziel dieser Arbeit besteht in der Untersuchung des Schnittverhaltens des Proteasoms mit Hilfe von Methoden des Machine Learnings: Daten von in vitro Experimenten, die am Institut für Biochemie der Charité durchgeführt wurden, dienten als Trainingsdaten, um ein Modell zur Klassifikation von Schnittprodukten des Proteasoms zu generieren. Hierfür kam ein Decision Tree (Entscheidungsbaum) Algorithmus zum Einsatz. Im Gegensatz zu anderen Verfahren wie neuronalen Netzen oder Support Vector Machines bieten Decision Trees den Vorteil, dass die Entscheidungen, die zur Klassifikation im Modell führen, in Form von Entscheidungsbäumen oder einfachen Wenn-Dann-Regeln dargestellt werden können. So wurde ein Modell erstellt, das nicht nur die Vorhersage von Schnittprodukten des Proteasoms erlaubt, sondern es auch ermöglicht, die für die Klassifikation relevanten Eigenschaften des Substrats zu identifizieren. Ergebnisse 28 verschiedene Decision Trees wurden mit unterschiedlichen Trainings-Datensätzen und verschiedenen Sätzen von möglichen Attributen erzeugt. Mittels Cross Validation wurde überprüft, dass die Trainingsdaten durch die generierten Bäume korrekt klassifiziert wurden. Eine Validierung mit in vitro Daten ist hingegen nur eingeschränkt möglich, da lediglich Daten zu T -Zell-Epitopen verfügbar sind. Dabei handelt es sich jedoch nicht um direkte Verdauprodukte des Proteasoms. Dennoch zeigte die Validierung der Decision Trees mit T-Zell-Epitopdaten plausible Ergebnisse. Keine Eigenschaft oder Klasse von Eigenschaften des Substrats zeigte eine hervorstechende Bedeutung bei der Klassifikation von Schnittfragmenten. Die verschiedenen Decision Trees verwendeten eine Vielzahl unterschiedlicher Substrateigenschaften.