Drug development is a very complex project, which is not only high-cost and time-consuming but also has high failure rate. Therefore, the techniques of computer-aided drug design are very critical for the pharmaceutical industry. (Q)SAR is a popular technique of computer-aided drug design. (Q)SRA models correlating biological activity with molecular structures can dramatically reducing development time; it can also drains on manpower and material resources, which would be impossible in a wet lab. On the other hand, (Q)SRA models also can be alternative methods to in vivo tests when consider the ethnic reasons. However, the implementation of (Q)SAR prediction techniques needs professional programming skills and related expert knowledge of mathematics. Those requests would hamper the majority of medical researchers if they start to develop a program from scratch. Hence, there is a demand for a powerful yet easy to operate (Q)SAR building software program for which users can simply customize their (Q)SAR model to a research target. Previously, our group has developed a (Q)SAR prediction package, DemPred, which has been used to solve various classification and regression problems such as prediction of human volume of distribution and clearance and predicting major histocompatibility complex II epitopes. In my doctoral research, based on the DemPred, we developed an updated prediction algorithm, DemFeature. The core of DemFeature is also a linear discrimination scoring function. In contrast to the DemPred, the distinct feature of DemFeature is that the it independently construct a specific training subset for each compound in the test set. It means that each compound in the test set would be predicted by a specific scoring function. The rule of constructing a training subset is referred to the similarity between the compounds in the training set and the compound to be predicted. DemFeature has two versions: DemFeature-1 and DemFeature-2. DemFeatur-1 utilized a cutoff value to decide how similar compounds in training set can be selected to constitute the specific training subset for a compound to be predicted, while the DemFeature-2 gives a fixed number of training subset including most similar and most dissimilar compounds for a compound to be tested. In my doctoral research, two datasets were utilized to test prediction ability of DemFeature. The first one was a contest on Kaggle™ platform launched by Boehringer Ingelheim whose dataset is related to genotoxicity, an important property in drug development. The other one is drug-induced phospholipidosis, which is a side effect of drugs. Recent years, it has been interested in the pharmaceutical research community for drug safety. Compared with DemPred, the prediction performance of the DemFeature has been improved. The prediction results were even better than some state of art prediction models on both cases. Therefore, DemFeature could be employed as a computer-aided tool used in the early stage of drug development.
Wirkstoffentwurf ist ein anspruchsvolles Thema, welches nicht nur zeit- und kostenintensiv ist, sondern auch eine hohe Misserfolgsquote aufweist. Aus diesem Grund ist der computergestützte Wirkstoffentwurf sehr entscheidend in der Pharmaindustrie. (Q)SAR-Modelle, welche biologische Aktivität von Molekülen aufgrund ihrer Struktur beschreiben, sind in der Lage, den Bedarf von Arbeitskräften und Materialien signifikant zu reduzieren. Zusätzlich bieten (Q)SAR-Modelle eine alternative Herangehensweise, falls in-vivo-Studien aus moralischen Gründen nicht in Frage kommen. Das Entwickeln von (Q)SAR- Vorhersagemethoden erfordert professionelle Programmierkenntnisse sowie tiefgehendes mathematisches Verständnis. Diese Anforderungen erschweren Wissenschaftlern in der medizinischen Forschung die Entwicklung eigener Software. Aus diesem Grund, besteht ein hoher Bedarf an leistungsstarker und einfach zu benutzender Software zur Erstellung von (Q)SAR-Modellen. Vorab wurde in unserer Arbeitsgruppe die Software-Bibliothek „DemPred“ entwickelt, welche benutzt wurde, um verschiedene Klassifikations- und Regressionsfragestellungen zu lösen. Beispiele sind die Vorhersage von Verteilungsvolumen im menschlichen Körper sowie Vorhersage von Epitopen des Haupthistokompatibilitätskomplexes. Während meiner Doktorarbeit habe ich, auf DemPred basierend, einen aktualisierten Algorithmus („DemFeature“) entwickelt. Der Kern von DemFeature und auch DemPred ist eine lineare Bewertungsfunktion, welche zur Klassifizierung benutzt wird. Der wesentliche Unterschied zu DemPred ist die Fähigkeit von DemFeature für jede Verbindung aus den Testdaten einen eigenen Lerndatensatz erstellen zu können. Das bedeutet, dass jede Verbindung in den Testdaten von einer spezifischen Scoring-Funktion vorhergesagt wird. Der Algorithmus zur Zusammenstellung des spezifischen Lerndatensatzes richtet sich nach der Ähnlichkeit der Verbindungen aus dem Lerndatensatz zu der Verbindung, für welche vorhergesagt wird. DemFeature beinhaltet zwei Versionen: DemFeature-1 und DemFeature-2. DemFeature-1 verwendet einen Grenzwert bezüglich der Ähnlichkeit um zu entscheiden, ob eine Verbindung dem spezifischen Lerndatensatz zugeordnet wird. Im Unterschied dazu wird bei DemFeature-2 eine feste Anzahl von Verbindungen im spezifischen Lerndatensatz vorgegeben, so dass diesem nur die ähnlichsten und unähnlichsten Verbindungen zugeordnet werden. In dieser Doktorarbeit wurden zwei Datensätze verwendet, um die Vorhersagekraft von DemFeature zu prüfen. Der eine Datensatz bezieht sich auf Genotoxizität, welche im Wirkstoffentwurf eine wichtige Rolle spielt, und resultiert aus einem, durch Boehringer Ingelheim gegründeten, Wettbewerb. Der zweite Datensatz konzentriert sich auf Nebenwirkungen von Medikamenten (arzneimittelbedingte Phospholipidose), welche in den letzten Jahren hinsichtlich Arzneimittelsicherheit für Wissenschaftler aus dem pharmazeutischen Bereich interessant geworden sind. Verglichen mit DemPred konnte die Vorhersagekraft der generierten Modelle mit DemFeature verbessert werden. Die Vorhersagekraft übertraf sogar jene anderer aktueller Modelle zur Vorher.