In silico predictions of particular properties of biological active molecules can dramatically reduce time and costs needed to measure these properties in a wet lab. Nevertheless, the implementation of state of the art prediction techniques needs expert knowledge of machine learning methods and distinctive programming skills if starting from scratch. Hence, there is a demand for powerful yet easy to use libraries, which users can employ and extend to build their own models given a particular prediction task. During my PhD I developed such a library called DemPRED. The core of DemPRED consists of a linear scoring function. This scoring function can be combined with various loss functions, which makes DemPRED suitable for classification and regression. In cases were a linear model is not flexible enough DemPRED makes use of the kernel trick to transform the linear core into a non linear one. DemPRED contains many additional routines, which help users to generate reliable prediction models. These include various quality measurements as well as re- sampling strategies and routines for saving and loading of generated models. DemPRED includes various regularization and feature selection strategies, which make this library especially suitable for prediction tasks where few observations are described by thousands of descriptors. The object oriented implementation of DemPRED allows users to extend and modify the build in routines by their own ones. During my PhD I successfully used DemPRED on various classification and re-gression problems such as predicting major histocompatibility complex II (MHC II) epitopes, prediction of human volume of distribution and clearance as well as detecting protein interface regions. The predictive power of all generated models was as good as or even better than other state of the art classification and regression techniques.
Trotz fortgeschrittener Messtechniken kann das Erfassen molekularer Eigenschaften für die meisten biochemischen Prozesse sehr zeitaufwändig und teuer sein. Dies gilt insbesondere dann, wenn Eigenschaften umfangreicher Moleküldatenbanken untersucht werden sollen. Um den Prozess der Messung zu beschleunigen, werden Laborexperimente heutzutage immer häufiger durch Computer gestützte Vorhersagemethoden ergänzt. Somit können selbst große Datenbanken in einem Bruchteil der sonst dafür im Labor benötigten Zeit untersucht werden. Ohne geeignete Werkzeuge kann die Generierung eines aussagekräftigen, computergestützten Vorhersagemodels jedoch ebenfalls kompliziert und zeitaufwändig sein. Aus diesem Grund besteht die Nachfrage nach einfach zu bedienenden und erweiterbaren Programmbibliotheken, welche die Grundfunktionen für die Generierung von Vorhersagemodellen zur Verfügung stellen. Während meiner Promotion habe ich eine solche Bibliothek namens DemPRED entwickelt. DemPRED basiert im Kern auf einem linearen Model, welches mit verschiedenen Verlustfunktionen kombiniert werden kann. In Fällen, in denen ein lineares Model nicht die nötige Flexibilität liefert, kann DemPRED mit Hilfe des Kernel Tricks zu einem nicht-linearen Model erweitert werden. Die DemPRED Bibliothek bietet zudem etliche zusätzliche Funktionen an, die dem Benutzer helfen, gute Vorhersagemodelle zu generieren. Während meiner Promotion habe ich DemPRED dazu genutzt, unterschiedlichste biochemische Prozesse vorherzusagen. Unter anderem habe ich Modelle für die Vorhersage der MHC II bindenden Epitope, humanen Verteilungs- und Ausscheidungskoeffizienten und Protein Interaktionsflächen entwickelt. Die Qualität der generierten Vorhersagemodelle war hierbei meist besser oder aber mindestens vergleichbar zu anderen bisher verwendeten Techniken.