With the advances in high-throughput data acquisition technologies, the amount of heterogeneous and complex data is constantly increasing. The application of intelligent algorithms such as deep neural networks (DNNs), which learn a hierarchy of increasingly complex features from the data, is emerging as an effective paradigm for analyzing complex datasets. In medical research, however, deep learning (DL) may suffer from overfitting due to the high dimensionality of the data. The scarcity of good quality labeled data also intensifies this issue due to the expensive and time-consuming process of providing labels and metadata by the human expert. Besides, despite the simple linear operation of core building blocks of DNNs, the hierarchical combination of these blocks may result in over-parameterization, which makes it challenging to explain their behavior. The black-box nature of these models raises a severe issue on the trustworthiness and reliability of deployed models, especially in high-stakes prediction applications. Therefore, to analyze high-dimensional medical data using DL models in medical settings, we need to address two important questions: 1) How to deal with the curse of dimensionality and limitation of annotated data? 2) How to improve the transparency of deep learning models through interpretability, as it potentially leads to a better understanding of the data and the deployed model?
This thesis addresses these challenges in high-throughput structured data and high-dimensional imaging data modalities. We begin our study on high-throughput structured data with the application of proteomics data analysis. We robustly learn the data representation and extract the medically relevant information using DL techniques. We develop novel data analysis based on what the DL model can learn through interpreting its predictions. This information enables getting insight into the data patterns and discovering discriminating features. We also justify the reliability of the model interpretation through comprehensive quantitative assessments. We show that the proper combination of DL techniques coupled with interpretation strategies that enable an in-depth understanding of model decisions can guide towards a reliable clinical decision support system.
Further, we study DL techniques on high-dimensional imaging data. Unlike structured data where desired features appear with slight deviations, regions of interest on medical images may appear with a large deviation on different data points. Therefore, we built our image analysis on supervised convolutional neural networks (CNN), which can handle large deviations. We investigate different CNN architectures and compare their strength. Finally, we built a robust pipeline on heterogeneous imaging data with the challenging application of human spinal vertebra detection-identification. To deal with the scarcity of data, we show how different techniques, including transfer learning, data augmentation, human-in-the-loop, and synthetic generation of data in medical settings, boost generalization.
Mit den Fortschritten bei den Technologien zur Datenerfassung mit hohem Durchsatz nimmt die Menge heterogener und komplexer Daten ständig zu. Die Anwendung intelligenter Algorithmen wie deep neural networks (DNNs), die eine Hierarchie zunehmend komplexer Merkmale aus den Daten lernen, entwickelt sich zu einem effektiven Paradigma für die Analyse komplexer Datensätze. In der medizinischen Forschung kann deep learning (DL) jedoch aufgrund der hohen Dimensionalität der Daten unter einer Überanpassung leiden. Der Mangel an qualitativ hochwertigen beschrifteten Daten verschärft dieses Problem noch, da die Bereitstellung von Beschriftungen und Metadaten durch einen menschlichen Experten teuer und zeitaufwändig ist. Außerdem führt die hierarchische Kombination dieser Blöcke trotz der einfachen linearen Funktionsweise der Kernbausteine von DNNs zu einer Überparametrisierung, die es schwierig macht, ihr Verhalten zu erklären. Um hochdimensionale medizinische Daten mit fortschrittlichen DL-Modellen in der Medizin zu analysieren, müssen wir daher zwei wichtige Fragen beantworten: 1) Wie kann man mit dem Fluch der Dimensionalität und der Begrenztheit der annotierten Daten umgehen? 2) Wie kann die Transparenz von DL-Modellen durch Interpretierbarkeit verbessert werden, da dies potenziell zu einem besseren Verständnis der Daten und des eingesetzten Modells führt?
Diese Arbeit befasst sich mit diesen Herausforderungen in strukturierten Hochdurchsatzdaten und hochdimensionalen Bildgebungsdatenmodalitäten. Wir beginnen unsere Studie über strukturierte Hochdurchsatzdaten mit der Anwendung der Proteomik-Datenanalyse. Wir erlernen die Datenrepräsentation auf robuste Weise und extrahieren die medizinisch relevanten Informationen mithilfe von DL-Techniken. Wir entwickeln neuartige Datenanalysen, die auf dem basieren, was das DL-Modell durch die Interpretation seiner Vorhersagen lernen kann. Diese Informationen ermöglichen einen Einblick in die Datenmuster und die Entdeckung von Unterscheidungsmerkmalen. Wir rechtfertigen auch die Zuverlässigkeit der Modellinterpretation durch umfassende quantitative Bewertungen. Wir zeigen, dass die richtige Kombination von DL-Techniken in Verbindung mit Interpretationsstrategien, die ein tiefgreifendes Verständnis der Modellentscheidungen ermöglichen, zu einem zuverlässigen klinischen Entscheidungsunterstützungssystem führen kann.
Außerdem untersuchen wir DL-Techniken für hochdimensionale Bilddaten. Im Gegensatz zu strukturierten Daten, bei denen die gewünschten Merkmale mit geringen Abweichungen auftreten, können die interessierenden Regionen auf medizinischen Bildern an verschiedenen Datenpunkten mit einer großen Abweichung auftreten. Daher haben wir unsere Bildanalyse auf überwachte convolutional neural network (CNN) aufgebaut, die mit großen Abweichungen umgehen können. Wir untersuchen verschiedene CNN-Architekturen und vergleichen ihre Stärken. Schließlich haben wir eine robuste Pipeline für heterogene Bilddaten mit der anspruchsvollen Anwendung der Erkennung und Identifizierung menschlicher Wirbel entwickelt. Um mit der Datenknappheit umzugehen, zeigen wir, wie verschiedene Techniken, einschließlich Transferlernen, Datenerweiterung, Human-in-the-Loop und synthetische Generierung von Daten im medizinischen Umfeld, die Generalisierung verbessern.