The continuous increase in available specimens and data is a catalyst for medical research and development and a prerequisite for personalized medicine. One way to effectively process the growing amount of data and derive new diagnostic tools or insights from it is through machine learning algorithms, particularly those based on artificial neural networks and summarized under the term deep learning. These algorithms have made significant progress in solving various problems in recent years. This is evident in image recognition and processing, where solutions based on neural networks promise to support, optimize, or even replace established medical procedures.
Most neural networks are currently trained using the supervised learning approach, which requires a large, annotated training dataset. Due to the expertise and legal restrictions in the annotation process, this poses a significant challenge and an enormous cost factor in the medical domain. This work demonstrates that self-supervised Learning methods implement an alternative learning paradigm that addresses this issue by drastically reducing the need for annotated training data. This effect is demonstrated using sequential and image data, two fundamental types of machine learning data.
Multiple state-of-the-art self-supervised learning methods are adapted to the characteristics of histopathological image data, compared under controlled conditions, and evaluated for their suitability in the domain. It is shown that the trained models, across different network architectures and configurations, positively impact performance in histopathological classification tasks, even with limited annotated data. The observations suggest that the learned features of such models are transferable to a certain extent within the domain, for example, from one tissue type to another. Sequential data demonstrates how a proto-type for reference-free taxonomic classification of DNA sequences can be developed based on a self-supervised trained amino acid language model. It is shown that existing tools can be improved, and new research-relevant questions can be investigated using such models.
The results of the two case studies show that the adoption of the self-supervised Learning paradigm is of essential importance in the field of medicine. Models trained in this manner are expected to substitute existing ones and establish themselves as baseline models in various medical domains.
Der stetige Zuwachs an verfügbaren Bioproben und Daten ist ein Katalysator für die medizinische Forschung und Entwicklung und eine Voraussetzung für die personalisierte Medizin. Eine Möglichkeit, die wachsenden Datenmengen gewinnbringend zu verarbeiten und daraus neue diagnostische Werkzeuge oder Erkenntnisse zu gewinnen, sind Algorithmen des maschinellen Lernens, insbesondere solche, die unter dem Begriff Deep-Learning zusammengefasst werden und auf künstlichen neuronalen Netzwerken basieren. Diese Algorithmen haben in den vergangenen Jahren einen signifikanten Fortschritt bei der Lösung unterschiedlichster Probleme erzielt. Dies wird beispielsweise im Bereich der Bilderkennung und -verarbeitung deutlich, wo diese Ansätze versprechen, etablierte medizinische Verfahren zu unterstützen, zu optimieren oder sogar zu ersetzen.
Der überwiegende Teil neuronaler Netzwerke wird aktuell auf Basis von überwachtem Lernen trainiert, welches einen großen annotierten Trainingsdatensatz erfordert. In der medizinischen Domäne ist dies aufgrund der für den Annotationsprozess erforderlichen Fachkenntnisse und rechtlichen Einschränkungen eine große Herausforderung sowie ein enormer Kostenfaktor. In dieser Arbeit wird gezeigt, dass selbst-überwachte Methoden ein alternatives Lernparadigma umsetzten, welches dieser Problematik entgegenwirkt, da dies die Anzahl der benötigten annotierten Trainingsdaten drastisch reduziert. Anhand von sequenziellen Daten sowie Bilddaten, zwei elementaren Datentypen des maschinellen Lernens, wird dies belegt.
Verschiedene selbst-überwachte Lernmethoden, die dem aktuellen Stand der Forschung entsprechen, werden an die Eigenheiten histopathologischer Bilddaten angepasst, unter kontrollierten Bedingungen verglichen und für die Eignung in der Domäne bewertet. Es wird gezeigt, dass die trainierten Modelle über verschiedene Netzwerkarchitekturen und -konfigurationen hinweg eine positive Auswirkung auf die Leistung bei histopathologischen Klassifizierungsaufgaben haben. Die Beobachtungen deuten darauf hin, dass die erlernten Merkmale der Modelle bisher nur zu einem gewissen Grad auf andere Bereiche innerhalb der Domäne transferierbar sind, beispielsweise von einem Gewebetyp auf einen anderen. Für sequenzielle Daten wird gezeigt, wie basierend auf einem selbst-überwacht trainierten Amino-Säure-Sprachmodell ein Prototyp zur referenzfreien taxonomischen Klassifizierung von DNS-Sequenzen entwickelt werden kann. Es wird demonstriert, dass sowohl existierende Werkzeuge mit Hilfe solcher Modelle verbessert als auch neue forschungsrelevante Fragestellungen untersucht werden können.
Die Ergebnisse der beiden Fallstudien zeigen, dass die Verbreitung des selbst-überwachten Lernparadigmas für die Medizin von essenzieller Bedeutung ist. Es wird erwartet, dass derartig trainierte Modelle existierende substituieren und sich als Basismodelle in verschiedenen medizinischen Bereichen etablieren werden.