dc.contributor.author
Bahl, Aileen
dc.date.accessioned
2025-01-06T09:45:06Z
dc.date.available
2025-01-06T09:45:06Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/45685
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-45398
dc.description.abstract
Nanomaterials (NMs) can be manufactured to serve different industrial purposes by fine-tuning their
physico-chemical properties. This results in a theoretically unlimited number of NM variants.
Thereby, even small variations in the physico-chemical properties of a NM may have substantial
influence on their uptake, toxicokinetics as well as (eco-)toxicity. Thus, in theory, risk assessment
needs to be performed for all variants and all toxicological endpoint. As this is simply not feasible,
grouping and read-across approaches which allow the transfer of information between sufficiently
similar NMs are promising alternatives. However, establishing reliable grouping approaches for NMs
is not trivial due to the current lack of understanding with respect to the relationship between
individual physico-chemical properties and the toxicological profile of NMs. The overall aim of this
thesis was to explore how machine learning (ML) approaches can be used to support NM grouping in
finding such relationships or underlying patterns. As formulating a reliable grouping hypothesis may
largely benefit from mechanistic understanding, the underlying modes-of-action (MoAs) for different
NMs were also explored by investigating results from omics approaches.
In the first study, the aim was to use ML for identifying the most important physico-chemical
properties influencing the toxicity of NMs. Therefore, a dataset of eleven NMs with comprehensive
description of their physico-chemical properties was used. These physico-chemical properties were
then linked to available in vivo data obtained from short-term inhalation studies (STIS) and in vitro
toxicity data measured with the so-called macrophage assay. In both cases, toxicity was represented
as binary outcome variable indicating whether a NM was ‘active’ and ‘passive’ in the respective
toxicity studies. Unsupervised and supervised ML approaches were trained on this dataset. In the
unsupervised model, principal component analysis (PCA) was used to infer information on which
physico-chemical properties have the strongest impact in the first two principal components (PCs).
Afterwards, k-nearest neighbors (kNN) was applied to compare results to the defined activity levels.
In the supervised counterpart, random forest (RF) analysis with and without recursive feature
elimination (RFE) was performed. Toxicity classes were thereby directly used as labels in the model
building process. Overall, the best model was obtained using RF with RFE. It reached a balanced
accuracy of 0.82 and was built on the three parameters zeta potential, redox potential and
dissolution rate. This study showed, how ML could support NM grouping approaches. At the same
time, it was also obvious that predictive modeling based solely on physico-chemical properties has
severe limitations. While this is widely accepted to date and also mentioned in various
recommendations, this was not the case at the time of the study. Already with this small set of NMs
5
and compared to other studies a comprehensive description of physico-chemical properties, no
perfect separation of ‘active’ and ‘passive’ NMs was possible.
The second study, aimed at investigating the oxidative potential (OP) in addition to physico-chemical
properties. Different assays for measuring the OP were evaluated with respect to their predictivity
for NM toxicity. In addition, one goal was to find out whether or not OP assays could replace each
other or whether results from different OP assay in different datasets could be combined. Within this
study, four assays have been compared, namely the acellular surface reactivity assays electron spin
resonance (ESR) spectroscopy using CPH spin probe and DMPO spin trap and the ferric reduction
ability of serum (FRAS) assay as well as the cellular protein carbonylation assay as a marker for
oxidative protein damage in NRK-52E cells. The comparison was based on a case study holding OP
measurements for 35 NMs. For the four OP assays, mass-based doses were compared to surfacebased
ones, correlations and clustering between assays were computed and their predictivity for the
same outcome variables as in the first study was assessed for individual assays and all possible
combinations of them in a logistic regression model. As a result of those comparisons, surface-based
doses were shown to be more predictive than mass-based ones. In addition, correlations between
the OP assays were only moderate. Within the logistic regression model, predictivity was highest for
protein carbonylation or combinations of assays which include protein carbonylation. Thus, as
expected, biological OP assays seem to predict the actual toxicity outcome more reliably. At the same
time, combining datasets which used different OP assays for the purpose of building robust ML
models based on large datasets is not easily possible as the assays are not highly correlated. Overall,
OP seems to be very informative and relevant for NMs in general. However, also other toxicity
mechanisms (not directly related to OP) may be triggered by NM treatment, which cannot be
reflected by OP assays.
The third study focused more generally on elucidating MoAs underlying NM toxicity. Here,
proteomics data were to be explored for their potential to unravel MoAs of NMs to support NM
grouping. However, as proteomics data for NMs are relatively scarce and interpretation is difficult
due to missing reference data, the main idea was to integrate proteomics signatures observed for
NMs with those from other traits like chemicals, drugs or diseases. As such meta-analyses are mainly
hampered by the lack of standardization for proteomics data, a workflow for harmonized evaluation
of public proteomics data and their integration in a meta-analysis setting was developed. The
workflow PROTEOMAS aims to make proteomics data FAIR (findable, accessible, interoperable,
reusable). In an initial case study, PROTEOMAS was tested on 25 proteomics datasets to investigate
the toxicological effects of NMs in relation to those of other traits at the lung level. Proteomic
6
fingerprints and their similarities among the studied traits could be identified. PROTEOMAS was thus
useful for meta-analysis of proteomic datasets.
In the review article, an overview on the variety of ML models and omics approaches supporting NM
grouping available in literature is provided. Corresponding models were collected and some
overarching conclusions were drawn from these manuscripts. Especially, data availability and quality
are a major concern preventing the development of robust ML models for NM toxicity prediction. In
addition, measurements are usually not well-standardized and insufficient metadata is provided and
thus datasets cannot be integrated. Overall, there is a strong need for FAIR data in the NM safety
community which would then allow development of more reliable models and advancement of in
silico tools in a regulatory context. It was also concluded, that recent developments in the field of AI
may also greatly support data gap filling and improvement of metadata availability in NM databases
as well as linked data concepts.
Overall, ML models as well as omics methods were shown to be useful to support NM grouping
approaches. However, data availability and standardization of methods are of utmost importance in
order to be able to develop reliable models.
en
dc.description.abstract
Nanomaterialien (NM) können durch Feinabstimmung ihrer physikalisch-chemischen Eigenschaften
für verschiedene industrielle Zwecke hergestellt werden. Dies führt zu einer theoretisch
unbegrenzten Anzahl von NM-Varianten. Dabei können selbst kleine Variationen in den physikalischchemischen
Eigenschaften eines NM einen erheblichen Einfluss auf seine Aufnahme, Toxikokinetik
und (Öko-)Toxizität haben. Daher muss theoretisch eine separate Risikobewertung für alle Varianten
und alle toxikologischen Endpunkte durchgeführt werden. Da dies nicht realistisch umsetzbar ist, sind
Gruppierungs- und Read-Across-Ansätze, die eine Übertragung von Informationen zwischen
hinreichend ähnlichen NM ermöglichen, vielversprechende Alternativen. Es ist jedoch nicht trivial,
zuverlässige Gruppierungsansätze für NM zu entwickeln, da die Beziehung zwischen den einzelnen
physikalisch-chemischen Eigenschaften und dem toxikologischen Profil von NM noch nicht
hinreichend geklärt ist. Das übergeordnete Ziel dieser Arbeit war es, zu untersuchen, wie
maschinelles Lernen (ML) eingesetzt werden kann, um die Gruppierung von NM bei der Suche nach
solchen Beziehungen oder den zugrunde liegenden Mustern zu unterstützen. Da die Formulierung
einer zuverlässigen Gruppierungshypothese in hohem Maße von einem mechanistischen Verständnis
profitieren kann, wurden die zugrundeliegenden Wirkungsweisen oder Modes-of-Action (MoAs) für
verschiedene NM auch durch die Untersuchung von Ergebnissen aus Omics-Ansätzen betrachtet.
In der ersten Studie wurde versucht, mit Hilfe von ML die wichtigsten physikalisch-chemischen
Eigenschaften zu ermitteln, die die Toxizität von NM beeinflussen. Dazu wurde ein Datensatz von elf
NM mit einer umfassenden Beschreibung ihrer physikalisch-chemischen Eigenschaften verwendet.
Diese physikalisch-chemischen Eigenschaften wurden dann mit verfügbaren in vivo Daten aus
Kurzzeit-Inhalationsstudien (STIS) und in vitro Toxizitätsdaten verknüpft, die mit dem sogenannten
Makrophagen-Assay gemessen wurden. In beiden Fällen wurde die Toxizität als binäre
Ergebnisvariable dargestellt, die angibt, ob ein NM in den jeweiligen Toxizitätsstudien "aktiv" oder
"passiv" war. Unüberwachte und überwachte ML-Ansätze wurden auf diesem Datensatz trainiert. Im
unüberwachten Modell wurde die Hauptkomponentenanalyse (PCA) verwendet, um Informationen
darüber abzuleiten, welche physikalisch-chemischen Eigenschaften in den ersten beiden
Hauptkomponenten (PC) den stärksten Einfluss haben. Anschließend wurden die Ergebnisse mit Hilfe
eines k-Nächste Nachbarn (kNN) Ansatzes mit den definierten Aktivitätsstufen verglichen. Im
überwachten Gegenstück wurde eine Random Forest (RF) Analyse mit und ohne rekursive
Merkmalseliminierung (RFE) durchgeführt. Die Toxizitätsklassen wurden somit direkt als
Kennzeichnungen im Modellbildungsprozess verwendet. Insgesamt wurde das beste Modell mit RF
2
und RFE erzielt. Es erreichte eine ausgewogene Genauigkeit von 0,82 und wurde auf den drei
Parametern Zetapotenzial, Redoxpotenzial und Auflösungsrate aufgebaut. Diese Studie zeigte, wie
ML die NM-Gruppierungsansätze unterstützen kann. Gleichzeitig wurde aber auch deutlich, dass die
Vorhersagemodellierung, die nur auf physikalisch-chemischen Eigenschaften beruht, erhebliche
Einschränkungen aufweist. Während dies heute allgemein anerkannt ist und auch in verschiedenen
Empfehlungen erwähnt wird, war dies zum Zeitpunkt der Studie noch nicht der Fall. Bereits mit
diesem kleinen Datensatz von NM, der im Vergleich zu vielen anderen Studien eine umfassende
Beschreibung der physikalisch-chemischen Eigenschaften aufwies, ist keine perfekte Trennung von
"aktiven" und "passiven" NM möglich.
Die zweite Studie zielte darauf ab, neben den physikalisch-chemischen Eigenschaften auch das
Oxidationspotenzial (OP) zu untersuchen. Verschiedene Assays zur Messung des OP wurden im
Hinblick auf ihre Vorhersagekraft für die NM-Toxizität bewertet. Darüber hinaus war es ein Ziel
herauszufinden, ob OP-Assays einander ersetzen können oder ob die Ergebnisse verschiedener OPAssays
aus unterschiedlichen Datensätzen kombiniert werden können. Im Rahmen dieser Studie
wurden vier Assays verglichen, nämlich die azellulären Oberflächenreaktivitätsassays
Elektronenspinresonanzspektroskopie (ESR) unter Verwendung einer CPH-Spinsonde und einer
DMPO-Spinfalle und der Ferric Reduction Ability of Serum (FRAS) Assay sowie der zelluläre
Proteincarbonylierungsassay als Marker für oxidative Proteinschäden in NRK-52E-Zellen. Der
Vergleich basierte auf einer Fallstudie mit OP-Messungen für 35 NMs. Für die vier OP-Assays wurden
die massebasierten Dosen mit den oberflächenbasierten verglichen, Korrelationen und Clustering
zwischen den Assays berechnet und ihre Vorhersagekraft für die gleichen Ergebnisvariablen wie in
der ersten Studie für einzelne Assays und alle möglichen Kombinationen davon in einem logistischen
Regressionsmodell bewertet. Diese Vergleiche ergaben, dass die oberflächenbasierten Dosen eine
bessere Vorhersagekraft haben als die massebasierten. Darüber hinaus waren die Korrelationen
zwischen den OP-Assays nur moderat. Im Rahmen der logistischen Regressionsanalyse war die
Vorhersagekraft bei der Proteincarbonylierung oder bei Kombinationen von Assays, die die
Proteincarbonylierung einschließen, am höchsten. Wie erwartet, scheinen also biologische OP-Tests
das tatsächliche Toxizitätsergebnis zuverlässiger vorherzusagen. Gleichzeitig ist die Kombination von
Datensätzen, bei denen verschiedene OP-Assays verwendet wurden, um robuste ML-Modelle auf der
Grundlage großer Datensätze zu erstellen, nicht ohne weiteres möglich, da die Assays nicht hoch
korreliert sind. Insgesamt scheint das OP sehr informativ und relevant für NM im Allgemeinen zu
sein. Allerdings können auch andere (nicht direkt mit dem OP zusammenhängende)
Toxizitätsmechanismen durch die Behandlung mit NM ausgelöst werden, die durch OP-Assays nicht
erfasst werden können.
3
Die dritte Studie konzentrierte sich allgemeiner auf die Aufklärung von MoAs, die der Toxizität von
NM zugrunde liegen. Hier sollten proteomische Daten auf ihr Potenzial hin untersucht werden, die
MoAs von NM zu entschlüsseln und so deren Gruppierung zu unterstützen. Da jedoch relativ wenige
proteomische Daten für NM existieren und die Interpretation aufgrund fehlender Referenzdaten
schwierig ist, bestand die Hauptidee darin, proteomische Signaturen, die für NM beobachtet wurden,
mit denen von anderen Kompenenten wie Chemikalien, Drogen oder Krankheiten zu vergleichen. Da
solche Meta-Analysen vor allem durch die fehlende Standardisierung von proteomischen Daten
beeinträchtigt werden, wurde ein Workflow für die harmonisierte Auswertung von öffentlichen
proteomischen Daten und deren Integration in eine Meta-Analyse entwickelt. Der PROTEOMASWorkflow
zielt auf die FAIRifizierung (Findable, Accessible, Interoperable, Reusable) von
proteomischen Daten ab. In einer ersten Fallstudie wurde PROTEOMAS an 25 proteomischen
Datensätzen getestet, um die toxikologischen Wirkungen von NM im Verhältnis zu denen anderer
Komponenten in der Lunge zu untersuchen. Proteomische Fingerabdrücke und deren Ähnlichkeiten
zwischen den untersuchten Komponenten konnten identifiziert werden. PROTEOMAS war somit
nützlich für die Meta-Analyse von Proteomdaten.
Der Übersichtsartikel gibt einen Überblick über die Vielfalt der in der Literatur verfügbaren MLModelle
und Omics-Ansätze zur Unterstützung der NM-Gruppierung. Entsprechende Modelle
wurden gesammelt und einige übergreifende Schlussfolgerungen aus diesen Manuskripten gezogen.
Insbesondere die Datenverfügbarkeit und -qualität sind ein großes Problem, das die Entwicklung
robuster ML-Modelle für die Vorhersage der Toxizität von NM erschwert. Darüber hinaus sind die
Messungen in der Regel nicht gut standardisiert und es werden nur unzureichende Metadaten
bereitgestellt, so dass die Datensätze nicht integriert werden können. Insgesamt besteht im Bereich
der NM-Sicherheit ein großer Bedarf an FAIRen Daten, was die Entwicklung zuverlässigerer Modelle
und die Weiterentwicklung von in silico Tools im regulatorischen Kontext ermöglichen würde. Es
wurde auch beschrieben, dass die aktuellen Entwicklungen auf dem Gebiet der künstlichen
Intelligenz die Schließung von Datenlücken und die Verbesserung der Verfügbarkeit von Metadaten
in NM-Datenbanken sowie verknüpfte Datenkonzepte erheblich unterstützen können.
Insgesamt haben sich ML-Modelle und Omics-Methoden als nützlich erwiesen, um NMGruppierungsansätze
zu unterstützen. Allerdings sind die Datenverfügbarkeit und die
Standardisierung
de
dc.format.extent
VII, 200 Seiten
dc.rights.uri
https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject
Nanomaterial Grouping
en
dc.subject
Machine Learning
en
dc.subject
New Approach Methodologies
en
dc.subject.ddc
500 Naturwissenschaften und Mathematik::500 Naturwissenschaften::500 Naturwissenschaften und Mathematik
dc.title
Improved computational methods and strategies for nanomaterial grouping
dc.contributor.gender
female
dc.contributor.firstReferee
Haase, Andrea
dc.contributor.furtherReferee
Klinger, Daniel
dc.date.accepted
2024-06-11
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-45685-5
dc.title.translated
Verbesserte computergestützte Methoden und Strategien zur Nanoaterialgruppierung
ger
refubium.affiliation
Biologie, Chemie, Pharmazie
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access