dc.contributor.author
Zhao, Max Xiaohang
dc.date.accessioned
2025-02-27T12:33:34Z
dc.date.available
2025-02-27T12:33:34Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/46089
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-45798
dc.description.abstract
Deep learning has revolutionized the computational analysis of complex data ranging from
human legible audio and visual information to other data sources. While deep learning
methods generally require more input data, they have consistently outperformed other
approaches in complex image recognition and natural language processing tasks, while
demonstrating high generalizability to new tasks. We explore the potential of deep learn-
ing based systems in the two diagnostic fields of human genetics syndromology and the
diagnostics of malignant hematological disorders. Using the example of inborn metabolic
disorders and B-cell lymphoma, we demonstrate that Artificial Intelligence (AI) systems
can be trained to classify such data with high accuracy.
In a cohort of inborn metabolic disorders, we were able to train a classifier with a mean
accuracy of 62%. We analyze cohort size, sex and ethnic background as potential con-
founders. We found increasing classification performance in all cohorts with increasing
sample count. Our confounder analysis suggests that performance can be further in-
creased in all classes with additional samples.
We designed and implemented a classification pipeline for multiparameter flow cytometry data without the need for gating using self-organizing maps and convolutional neural
networks. Using a cohort of 18 274 samples from routine B-cell lymphoma immunopheno-
typing, we were able to overall achieve an weighted F1-score of 0.94 on a held-out test set
of 2 348 samples. Subsequently, we apply our model to data sets with significant differ-
ences in panel design. By utilizing transfer learning, we are able to increase performance
of our classifier on these data sets and greatly increase the performance on very small
data sets.
Our results demonstrate the significant capabilities of these systems for increasing our
understanding of the disease phenotype in medical diagnostics. They also highlight the
challenges in the development of large deep learning models, especially the need for
training data in rare subgroups. For this, large scale collaborative efforts in the scientific
community are needed to further extend the capabilities of these systems, while allowing
for equitable access.
en
dc.description.abstract
Deep Learning hat die computergestützte Analyse komplexer Daten revolutioniert, die von
menschlich lesbaren Audio- und visuellen Informationen bis hin zu anderen Datenquellen
reichen. Obwohl Deep-Learning-Methoden in der Regel mehr Eingabedaten erfordern,
haben sie bei komplexen Bilderkennungs- und Sprachverarbeitungsaufgaben durchweg
besser abgeschnitten als andere Ansätze und gleichzeitig eine hohe Generalisierbarkeit
für neue Aufgaben bewiesen. Wir untersuchen das Potenzial von auf Deep Learning ba-
sierenden Systemen in den beiden diagnostischen Bereichen der humangenetischen Syn-
dromologie und der Diagnostik von bösartigen hämatologischen Erkrankungen. Am Bei-
spiel von angeborenen Stoffwechselstörungen und B-Zell-Lymphomen zeigen wir, dass
AI-Systeme solche Daten mit hoher Genauigkeit klassifizieren können.
In einer Kohorte von angeborenen Stoffwechselstörungen konnten wir einen Klassifika-
tor mit einer mittleren Genauigkeit von 62% trainieren. Wir analysieren die Kohortengröße,
das Geschlecht und den ethnischen Hintergrund als potenzielle Störfaktoren. Wir stellten
fest, dass die Klassifizierungsleistung in allen Kohorten mit zunehmender Stichproben-
zahl anstieg. Unsere Analyse der Störfaktoren deutet darauf hin, dass die Leistung in
allen Klassen mit zusätzlichen Proben weiter gesteigert werden kann.
Für Multiparameter-Durchflusszytometriedaten haben wir eine Klassifizierungspipeline
entwickelt und implementiert, die ohne Gating auskommt und selbstorganisierende Karten
und neuronale Faltungsnetzwerke verwendet. Unter Verwendung einer Kohorte von 18274
Proben aus der routinemäßigen Immunphänotypisierung von B-Zell-Lymphomen konnten
wir einen gewichteten F1-Score von 0, 94 auf einem zurückgehaltenen Testsatz von 2348
Proben erzielen. Anschließend wanden wir unser Modell auf Datensätze mit signifikanten
Unterschieden im Paneldesign an. Durch den Einsatz von Transfer-Lernen sind wir in der
Lage, die Leistung unseres Klassifikators auf diesen Datensätzen zu erhöhen und die
Leistung auf sehr kleinen Datensätzen stark zu steigern.
Unsere Ergebnisse zeigen die bedeutenden Fähigkeiten dieser Systeme zur Verbesse-
rung unseres Verständnisses des Krankheitsphänotyps in der medizinischen Diagnostik.
Sie verdeutlichen auch die Herausforderungen bei der Entwicklung großer Deep-Learning-
Modelle, insbesondere den Bedarf an Trainingsdaten in seltenen Untergruppen. Hierfür
sind groß angelegte gemeinschaftliche Anstrengungen in der wissenschaftlichen Gemeinschaft erforderlich, um die Fähigkeiten dieser Systeme weiter auszubauen und gleichzeitig
einen gleichberechtigten Zugang zu ermöglichen.
de
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subject
machine learning
en
dc.subject
flow cytometry
en
dc.subject
rare disease
en
dc.subject
facial gestalt analysis
en
dc.subject
self organizing maps
en
dc.subject.ddc
600 Technology, Medicine, Applied sciences::610 Medical sciences; Medicine::610 Medical sciences; Medicine
dc.title
Deep phenotyping using machine learning approaches
dc.contributor.gender
male
dc.contributor.firstReferee
N.N.
dc.contributor.furtherReferee
N.N.
dc.date.accepted
2025-02-28
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-46089-7
dc.title.translated
Tiefe Phänotypisierung mittels maschinellen Lernens
ger
refubium.affiliation
Charité - Universitätsmedizin Berlin
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access