Given the ubiquity of synthetic chemicals in our daily life, it is crucial to assess the hazardous effects of new chemical substances on humans, animals, and the environment. Toxicity assessment has traditionally been based on in vitro and in vivo studies, but ethical and economic arguments call for reduction and replacement of animal testing. Therefore, computational toxicity prediction has gained momentum to support toxicity studies and to ultimately reduce animal testing. In silico approaches are comparably fast and inexpensive, and many of them can be applied prior to synthesis and in vitro testing of new chemicals. Computational methods such as machine learning (ML), similarity search, and structural alerts are already in use during the development of new chemicals. They are often restrained by limitations in data availability for training and by the need for applicability domain determination for predictions on new data. In this thesis, novel in silico strategies for guiding in vivo and in vitro toxicity testing were developed. Means to maximise the gain from limited available data were explored, as well as strategies to improve the applicability of in silico toxicity prediction approaches. A special focus was laid on studying the potential of the conformal prediction (CP) framework, which is built on top of an ML model, to allow for confidence estimation. The CP framework utilises an extra calibration set to compare the predicted probabilities of new query compounds to those previously seen. The calibrated probabilities are returned in the form of so-called p-values. To support toxicity testing of new chemicals, the Python-based KnowTox pipeline was developed. Following a holistic approach, a compound of interest can in silico be examined from three perspectives: KnowTox searches for known toxic substructures, returns how similar compounds were tested in vitro, and queries pre-trained CP models. The value of complementing the outputs of different in silico approaches was demonstrated in a retrospective case study on two triazole molecules from industry. Focusing on the estrogen receptor (ER), an important target for endocrine disruption, we further explored whether in silico predictions can help to pre-select compounds for in vitro experiments. Starting from nine newly discovered ER active compounds (using the recently-developed E-Morph Screen ER assay), it was prospectively shown that similarity search and CP models can help to increase the hit rate of in vitro screens, enabling fast and efficient identification of novel endocrine disruptors. In the above described studies, CP was used as it outputs valid confidence estimates and guarantees pre-defined error rates (on the exchangeability assumption). Moreover, allowing class-wise calibration, data imbalances are usually well-handled. The potential of CP was, in this thesis, further investigated for the generation of bioactivity descriptors, and to mitigate data drift effects. The ChemBioSim project addressed the challenge of predicting in vivo toxicological effects by informing CP models with bioactivity descriptors originating from in vitro data. Compared to chemical descriptors, bioactivity descriptors may provide more mechanistic information and help to better capture complex in vivo outcomes. To avoid in vitro testing of every query molecule, p-values returned by CP models trained on in vitro datasets served as bioactivity descriptors. For the investigated MNT and cardiotoxicity endpoints, in vivo toxicity prediction could be improved by using bioactivity (instead of chemical) descriptors. The CP framework is designed to yield valid predictions, provided that training and test set are exchangeable. This assumption is not always fulfilled; data drifts may occur e.g. when the chemical space or assay conditions change. To mitigate effects of data drifts, we have developed a recalibration strategy, suggesting to exchange the calibration set with data closer to the test data. The strategy, developed based on the Tox21 data, was further analysed for temporal data drifts using ChEMBL data and for differences between public and proprietary data. In most cases, recalibration led to restored validity, a prerequisite for model applicability. Besides applications of computational toxicity prediction methods and CP, this thesis further discusses general aspects of data and applicability domain in the context of in silico toxicology. While regulatory agencies still require animal studies, with the computational strategies discussed in this work, we aim to foster the reliability of predictions and the applicability of models, to ultimately reduce animal testing.
Synthetische Chemikalien sind in unserem täglichen Leben allgegenwärtig, was die Untersuchung neuer Chemikalien auf toxische Effekte unerlässlich macht. Toxikologische Untersuchungen werden traditionellerweise anhand von in vitro und in vivo Studien durchgeführt. Jedoch fordern ethische und wirtschaftliche Argumente die Reduktion und letztendlich den Ersatz von Tierversuchen. Daher hat die computergestützte Toxizitätsvorhersage an Bedeutung gewonnen, um Toxizitätsstudien zu unterstützen und letztlich Tierversuche zu reduzieren. In silico Methoden sind vergleichsweise schnell und günstig, und viele von ihnen können vor der Synthese und in vitro-Prüfung neuer Chemikalien angewendet werden. Computergestützte Methoden wie Maschinelles Lernverfahren (ML), Ähnlichkeitssuche und Substruktursuche werden im Entwicklungsprozess neuer Chemikalien bereits angewendet. Sie stossen jedoch oft an ihre Grenzen. Ein Grund dafür ist die limitierte Datenverfügbarkeit, ein anderer die Gewährleistung der Anwendbarkeit der Modelle. Im Zuge dieser Arbeit wurden neuartige in silico Strategien zur Steuerung von in vivo und in vitro Versuchen entwickelt. Es wurden Strategien zur Maximierung des Nutzens aus den begrenzt verfügbaren Daten sowie Strategien zur Verbesserung der Anwendbarkeit von in silico-Toxizitätsvorhersageansätzen untersucht. Ein besonderer Schwerpunkt der Arbeit lag auf der Untersuchung des Potenzials des Conformal Prediction (CP) Frameworks, das auf einem ML-Modell aufbaut, um eine Vetrauensabschätzung zu ermöglichen. CP verwendet ein zusätzliches Kalibrierungsset, mithilfe dessen die von ML Modellen vorhergesagten Wahrscheinlichkeiten für neue Moleküle kalibriert werden. Die Kalibrierung erfolgt anhand von Vorhersagen für bereits bekannte Moleküle und die kalibrierten Wahrscheinlichkeiten werden als sogenannte p-Werte zurückzugeben. Um das Planen von toxikologischen Studien und die Risikobeurteilung von Chemikalien zu unterstützen, wurde die Python-basierte KnowTox Pipeline entwickelt. KnowTox verfolgt einen ganzheitlichen Ansatz, bei dem eine neue Substanz aus drei Perspektiven in silico beurteilt wird: KnowTox sucht nach bekannten unerwünschten Substrukturen, ermittelt wie ähnliche Substanzen in vitro getestet wurden, und es werden Vorhersagen mit vortrainierten CP Modellen gemacht. In einer retrospektiven Fallstudie mit zwei ehemaligen Entwicklungskandidaten aus der Industrie konnte der Nutzen des Kombinierens verschiedener in silico Methoden aufgezeigt werden. Unsere nächste Studie konzentrierte sich auf den Östrogenrezeptor (ER), einen wichtigen Angriffspunkt für hormonaktive Substanzen. Es wurde untersucht, ob in silico Vorhersagen auch bei der Vorselektionierung von Testsubstanzen für in vitro Versuche nützlich sein können. Anhand von neun Substanzen, die mithilfe des kürzlich entwickelten E-Morph Screen ER Assays als ER-aktiv eingestuft worden sind, konnte prospektiv gezeigt werden, wie Ähnlichkeitssuche und CP-Modelle die Trefferquote von in vitro Screeningverfahren erhöhen können, was eine schnellere und effizientere Identifizierung neuartiger Endokriner Disruptoren ermöglicht. In den oben beschriebenen Studien wurde die CP-Methode gewählt, weil sie valide Vertrauensabschätzungen macht und vordefinierte Fehlerraten garantiert. Zusätzlich kann CP durch klassenweise Kalibrierung gut mit den für toxikologische Datensätze üblichen Ungleichgewichten zwischen der Anzahl aktiver und inaktiver Moleküle umgehen. Desweiteren wurde in dieser Arbeit das Potenzial der CP-Methode für die Generierung von Bioaktivitäts-Deskriptoren und zur Abschwächung von Datendrifteffekten untersucht. Das ChemBioSim Projekt befasste sich mit der Herausforderung, toxikologische in vivo Effekte vorherzusagen, indem CP-Modelle mit Bioaktivitäts-Deskriptoren aus in vitro-Daten angereichert wurden. Im Vergleich zu chemischen Deskriptoren, könnten Bioaktivitäts-Deskriptoren mehr mechanistische Informationen enthalten und helfen, komplexe in vivo-Endpunkte besser zu erfassen. Um zu vermeiden, dass jedes vorhergesagte Molekül auch synthetisiert und in vitro getestet werden muss, wurden CP Modelle auf in vitro Datensätzen trainiert und die ausgegebenen p-Werte als Bioaktivitäts-Deskriptoren verwendet. Für die untersuchten MNT- und Kardiotoxizitäts-Endpunkte konnte die Vorhersage der in vivo Toxizität mithilfe der Bioaktivitätsdeskriptoren, im Vergleich zu chemischen Deskriptoren, verbessert werden. Das CP Framework wurde so konzipiert, dass die Modelle gültige Vorhersagen liefern, vorausgesetzt, dass Trainings- und Testdatensatz austauschbar sind. Diese Annahme ist jedoch nicht immer erfüllt. Es kann zum Beispiel zu Datendrifts kommen, wenn sich der chemische Raum oder die Assay-Bedingungen ändern. Um die Auswirkungen solcher Datendrifte abzuschwächen, haben wir eine sogenannte `Rekalibrierungs-Strategie' entwickelt, bei der das Kalibrierungsset durch neue Daten ersetzt wird, die näher am Testdatensatz liegen. Die Strategie wurde anhand der Tox21 Datensätze entwickelt und anschliessend weiter für die Anwendung auf temporale Datendrifts sowie auf Unterschiede zwischen öffentlichen und proprietären Daten untersucht. In den meisten Fällen führte die Rekalibrierung zur Wiederherstellung der Validität, eine Voraussetzung für die Anwendbarkeit des Modells. Neben den Anwendungen von computergestützten Methoden und CP zur Vorhersage der Toxizität, werden in dieser Arbeit auch allgemeine Aspekte der Daten und der Anwendbarkeit im Kontext der in silico Toxikologie diskutiert. Während die Aufsichtsbehörden nach wie vor Tierversuche verlangen, zielen die in dieser Arbeit erörterten Strategien darauf ab, die Zuverlässigkeit der Vorhersagen und die Anwendbarkeit der Modelle zu verbessern, um letztendlich Tierversuche zu reduzieren.