dc.contributor.author
Wang, Hao
dc.date.accessioned
2018-06-07T16:19:42Z
dc.date.available
2017-03-29T09:21:01.851Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/2382
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-6583
dc.description.abstract
Drug development is a very complex project, which is not only high-cost and
time-consuming but also has high failure rate. Therefore, the techniques of
computer-aided drug design are very critical for the pharmaceutical industry.
(Q)SAR is a popular technique of computer-aided drug design. (Q)SRA models
correlating biological activity with molecular structures can dramatically
reducing development time; it can also drains on manpower and material
resources, which would be impossible in a wet lab. On the other hand, (Q)SRA
models also can be alternative methods to in vivo tests when consider the
ethnic reasons. However, the implementation of (Q)SAR prediction techniques
needs professional programming skills and related expert knowledge of
mathematics. Those requests would hamper the majority of medical researchers
if they start to develop a program from scratch. Hence, there is a demand for
a powerful yet easy to operate (Q)SAR building software program for which
users can simply customize their (Q)SAR model to a research target.
Previously, our group has developed a (Q)SAR prediction package, DemPred,
which has been used to solve various classification and regression problems
such as prediction of human volume of distribution and clearance and
predicting major histocompatibility complex II epitopes. In my doctoral
research, based on the DemPred, we developed an updated prediction algorithm,
DemFeature. The core of DemFeature is also a linear discrimination scoring
function. In contrast to the DemPred, the distinct feature of DemFeature is
that the it independently construct a specific training subset for each
compound in the test set. It means that each compound in the test set would be
predicted by a specific scoring function. The rule of constructing a training
subset is referred to the similarity between the compounds in the training set
and the compound to be predicted. DemFeature has two versions: DemFeature-1
and DemFeature-2. DemFeatur-1 utilized a cutoff value to decide how similar
compounds in training set can be selected to constitute the specific training
subset for a compound to be predicted, while the DemFeature-2 gives a fixed
number of training subset including most similar and most dissimilar compounds
for a compound to be tested. In my doctoral research, two datasets were
utilized to test prediction ability of DemFeature. The first one was a contest
on Kaggle™ platform launched by Boehringer Ingelheim whose dataset is related
to genotoxicity, an important property in drug development. The other one is
drug-induced phospholipidosis, which is a side effect of drugs. Recent years,
it has been interested in the pharmaceutical research community for drug
safety. Compared with DemPred, the prediction performance of the DemFeature
has been improved. The prediction results were even better than some state of
art prediction models on both cases. Therefore, DemFeature could be employed
as a computer-aided tool used in the early stage of drug development.
de
dc.description.abstract
Wirkstoffentwurf ist ein anspruchsvolles Thema, welches nicht nur zeit- und
kostenintensiv ist, sondern auch eine hohe Misserfolgsquote aufweist. Aus
diesem Grund ist der computergestützte Wirkstoffentwurf sehr entscheidend in
der Pharmaindustrie. (Q)SAR-Modelle, welche biologische Aktivität von
Molekülen aufgrund ihrer Struktur beschreiben, sind in der Lage, den Bedarf
von Arbeitskräften und Materialien signifikant zu reduzieren. Zusätzlich
bieten (Q)SAR-Modelle eine alternative Herangehensweise, falls in-vivo-Studien
aus moralischen Gründen nicht in Frage kommen. Das Entwickeln von (Q)SAR-
Vorhersagemethoden erfordert professionelle Programmierkenntnisse sowie
tiefgehendes mathematisches Verständnis. Diese Anforderungen erschweren
Wissenschaftlern in der medizinischen Forschung die Entwicklung eigener
Software. Aus diesem Grund, besteht ein hoher Bedarf an leistungsstarker und
einfach zu benutzender Software zur Erstellung von (Q)SAR-Modellen. Vorab
wurde in unserer Arbeitsgruppe die Software-Bibliothek „DemPred“ entwickelt,
welche benutzt wurde, um verschiedene Klassifikations- und
Regressionsfragestellungen zu lösen. Beispiele sind die Vorhersage von
Verteilungsvolumen im menschlichen Körper sowie Vorhersage von Epitopen des
Haupthistokompatibilitätskomplexes. Während meiner Doktorarbeit habe ich, auf
DemPred basierend, einen aktualisierten Algorithmus („DemFeature“) entwickelt.
Der Kern von DemFeature und auch DemPred ist eine lineare Bewertungsfunktion,
welche zur Klassifizierung benutzt wird. Der wesentliche Unterschied zu
DemPred ist die Fähigkeit von DemFeature für jede Verbindung aus den Testdaten
einen eigenen Lerndatensatz erstellen zu können. Das bedeutet, dass jede
Verbindung in den Testdaten von einer spezifischen Scoring-Funktion
vorhergesagt wird. Der Algorithmus zur Zusammenstellung des spezifischen
Lerndatensatzes richtet sich nach der Ähnlichkeit der Verbindungen aus dem
Lerndatensatz zu der Verbindung, für welche vorhergesagt wird. DemFeature
beinhaltet zwei Versionen: DemFeature-1 und DemFeature-2. DemFeature-1
verwendet einen Grenzwert bezüglich der Ähnlichkeit um zu entscheiden, ob eine
Verbindung dem spezifischen Lerndatensatz zugeordnet wird. Im Unterschied dazu
wird bei DemFeature-2 eine feste Anzahl von Verbindungen im spezifischen
Lerndatensatz vorgegeben, so dass diesem nur die ähnlichsten und unähnlichsten
Verbindungen zugeordnet werden. In dieser Doktorarbeit wurden zwei Datensätze
verwendet, um die Vorhersagekraft von DemFeature zu prüfen. Der eine Datensatz
bezieht sich auf Genotoxizität, welche im Wirkstoffentwurf eine wichtige Rolle
spielt, und resultiert aus einem, durch Boehringer Ingelheim gegründeten,
Wettbewerb. Der zweite Datensatz konzentriert sich auf Nebenwirkungen von
Medikamenten (arzneimittelbedingte Phospholipidose), welche in den letzten
Jahren hinsichtlich Arzneimittelsicherheit für Wissenschaftler aus dem
pharmazeutischen Bereich interessant geworden sind. Verglichen mit DemPred
konnte die Vorhersagekraft der generierten Modelle mit DemFeature verbessert
werden. Die Vorhersagekraft übertraf sogar jene anderer aktueller Modelle zur
Vorher.
de
dc.format.extent
II, 137 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Machine learning
dc.subject
Computer-aided drug design
dc.subject
Kaggle competition
dc.subject
Phospholipidosis
dc.subject.ddc
500 Naturwissenschaften und Mathematik::540 Chemie
dc.title
Predicting the function of drug-like molecules methods and applications
dc.contributor.contact
haowang0806@gmail.com
dc.contributor.firstReferee
Prof. Dr. Ernst Walter Knapp
dc.contributor.furtherReferee
Prof. Dr. Gerhard Wolber
dc.date.accepted
2017-03-16
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000104446-8
dc.title.translated
Vorhersage der Funktion von Molekülen mit Drug-Eigenschaften Methoden und
Anwendungen
de
refubium.affiliation
Biologie, Chemie, Pharmazie
de
refubium.mycore.fudocsId
FUDISS_thesis_000000104446
refubium.mycore.derivateId
FUDISS_derivate_000000021246
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access