Objectives: The aims of this dissertation were to (1) conduct a scoping review of stud-ies on machine learning (ML) in dentistry and appraise their robustness, (2) perform a benchmarking study to systematically compare various ML algorithms for a specific dental task, and (3) evaluate the influence of a ML-based caries detection software on diagnostic accuracy and decision-making in a randomized controlled trial.
Methods: The scoping review included studies using ML in dentistry published between 1st January 2015 and 31st May 2021 on MEDLINE, IEEE Xplore, and arXiv. The risk of bias and reporting quality were assessed with the QUADAS‐2 and TRIPOD checklists, respectively. In the benchmarking study, 216 ML models were built using permutations of six ML model architectures (U-Net, U-Net++, Feature Pyramid Networks, LinkNet, Pyramid Scene Parsing Network, and Mask Attention Network), 12 model backbones of varying complexities (ResNet18, ResNet34, ResNet50, ResNet101, ResNet152, VGG13, VGG16, VGG19, DenseNet121, DenseNet161, DenseNet169, and Dense-Net201), and three initialization strategies (random, ImageNet, and CheXpert weights). 1,625 dental bitewing radiographs were used for training and testing. Five-fold cross-validation was carried out and model performance assessed using F1-score. In the clin-ical trial, each one of 22 dentists examined 20 randomly selected bitewing images for proximal caries; 10 images were evaluated with ML and 10 images without ML. Accura-cy in lesion detection and the suggested treatment were evaluated.
Results: The scoping review included 168 studies, describing different ML tasks, mod-els, input data, methods to generate reference tests, and performance metrics, imped-ing comparison across studies. The studies showed considerable risk of bias and mod-erate adherence to reporting standards. In the benchmarking study, more complex models only minimally outperformed their simpler counterparts, if at all. Models initial-ized by ImageNet or CheXpert weights outperformed those using random weights (p<0.05). The clinical trial demonstrated that dentists using ML showed increased accu-racy (area under the receiver operating characteristic [mean (95% confidence interval): 0.89 (0.87–0.90)]) compared with those not using ML [0.85 (0.83–0.86); p<0.05], pri-marily due to their higher sensitivity [0.81 (0.74–0.87) compared to 0.72 (0.64–0.79); p<0.05]. Notably, dentists using ML also showed a higher frequency of invasive treat-ment decisions than those not using it (p<0.05).
Conclusion: To facilitate comparisons across ML studies in dentistry, a minimum (core) set of outcomes and metrics should be developed, and researchers should strive to improve robustness and reporting quality of their studies. ML model choice should be performed on an informed basis, and simpler models may often be similarly capable as more complex ones. ML can increase dentists’ diagnostic accuracy but also lead to more invasive treatment.
Ziele: Die Ziele dieser Dissertation waren, (1) ein Scoping-Review von Studien über maschinelles Lernen (ML) in der Zahnmedizin, (2) eine Benchmarking-Studie zum systematischen Vergleich verschiedener ML-Algorithmen für eine bestimmte zahnmedizinische Aufgabe, und (3) eine randomisierte kontrollierte Studie zur Bewertung einer ML-basierten Karies-Erkennungssoftware bezüglich diagnostischer Genauigkeit und Einfluss auf den Entscheidungsprozess durchzuführen. Methoden: Das Scoping-Review umfasste Studien über ML in der Zahnmedizin, veröffentlicht vom 1. Januar 2015 bis 31. Mai 2021 auf MEDLINE, IEEE Xplore und arXiv. Bias-Risiko und Berichtsqualität wurden mit den Checklisten QUADAS-2 beziehungsweise TRIPOD bewertet. In der Benchmarking-Studie wurden 216 ML-Modelle durch Permutationen von sechs Architekturen (U-Net, U-Net++, Feature Pyramid Networks, LinkNet, Pyramid Scene Parsing Network und Mask Attention Network), 12 Backbones (Res-Net18, ResNet34, ResNet50, ResNet101, ResNet152, VGG13, VGG16, VGG19, DenseNet121, DenseNet161, DenseNet169 und DenseNet201) und drei Initialisierungsstrategien (zufällige-, ImageNet- und CheXpert-Gewichtungen) erstellt. Zum Training und Testen wurden 1.625 Bissflügel-Röntgenaufnahmen genutzt. Es wurde eine fünffache Kreuzvalidierung durchgeführt und die Modellleistung anhand des F1-Scores bewertet. In der klinischen Studie untersuchten 22 Zahnärzte jeweils 20 zufällig ausgewählte Bissflügelbilder auf Approximalkaries; 10 Bilder wurden mit und 10 Bilder ohne ML ausgewertet. Die Genauigkeit in der Erkennung von Läsionen sowie die abgeleitete Therapieempfehlung wurden bewertet. Ergebnisse: Das Scoping-Review schloss 168 Studien ein, in denen verschiedene ML-Aufgaben, Modelle, Eingabedaten, Methoden zur Generierung von Referenztests und Leistungsmetriken beschrieben wurden. Die Studien zeigten ein erhebliches Bias-Risiko und eine mäßige Einhaltung der Berichtsstandards. In der Benchmarking-Studie hatten komplexere Modelle gegenüber einfachen Modellen allenfalls geringe Vorteile. Mit ImageNet- oder CheXpert-Gewichtungen initialisierte Modelle übertrafen solche mit Zufallsgewichtungen (p<0,05). In der klinischen Studie erreichten Zahnärzte mit ML eine höhere Genauigkeit bei der Kariesdetektion (Receiver-Operating-Charakteristik [Mittelwert (95 % Konfidenzintervall) 0,89 (0,87–0,90)]) als ohne ML [0,85 (0,83–0,86); p<0,05], hauptsächlich aufgrund höherer Sensitivität [0,81 (0,74–0,87) verglichen mit 0,72 (0,64–0,79); p<0,05]. Zahnärzte mit ML wählten auffallend häufiger invasive Behandlungen als ohne ML (p<0,05). Schlussfolgerung: Zur besseren Vergleichbarkeit von ML-Studien in der Zahnmedizin, sollten Core Outcomes und Metriken definiert sowie Robustheit und Berichtsqualität verbessert werden. Die Entwicklung von ML-Modellen sollte auf informierter Basis erfolgen, bei oft ähnlicher Leistung von einfacheren und komplexeren Modellen. ML kann die diagnostische Genauigkeit erhöhen, aber auch zu mehr invasiven Behandlungen führen.