Ziele: Die Nah-Infrarot-Licht-Transillumination (NILT) ist ein alternatives Verfahren zur radiologischen Kariesdetektion und vor allem geeignet zur Detektion früher approxi-maler Kariesläsionen. Für die Analyse von NILT-Bildern stehen erste Modelle aus dem Bereich der Künstlichen Intelligenz (KI) zur Verfügung, die auf Bildmaterial trai-niert wurden, das entweder in vivo (Routinedaten) oder in vitro (extrahierte Zähne) gewonnen wurde. Die vorliegende Studie untersuchte die Generalisierbarkeit dieser KI-Modelle auf in vivo und in vitro gewonnenen NILT-Bilddaten.
Methoden: Das zugrundeliegende Datenmaterial umfasste 1319 NILT-Segmente (von 508 Prämolaren, 811 bleibende Molaren) aus 56 erwachsenen Patienten, die klinisch untersucht worden waren (in vivo). In vitro wurden 226 extrahierte Zähne (113 Prämo-laren, 113 bleibende Molaren) in einem standardisierten Simulationsmodell eingebet-tet und NILT-Bildsegmente generiert. Die genutzte NILT-Technologie basierte auf der DIAGNOcam (DIAGNOcam, Kavo). Auf allen Bildsegmenten bewerteten drei unab-hängige, erfahrene Zahnärzt*innen das Vorhandensein einer Approximalkaries, ein vierter Zahnarzt überprüfte diese Bildbewertungen („Masterannotator“). Es wurden Convolutional Neural Networks (Res-Net) zur Klassifikation (Karies auf NILT-Bild vor-handen ja/nein) trainiert und mittels k-facher Kreuzvalidierung mit jeweils 10 Trai-nings-, Validierungs- und Test-Splits validiert. Dabei wurde vor allem die Generali-sierbarkeit von in vivo oder in vitro trainierten Daten auf dem jeweiligen anderen Da-tenmaterial überprüft. Um die Klassifikationsentscheidungen der KI-Modelle nachvoll-ziehbar zu machen, wurden mittels GradCAM-Visualisierung entscheidungsrelevante Bereiche in den Bildern dargestellt.
Ergebnisse: Die Prävalenz kariöser Läsionen betrug 41 % in vitro und 49 % in vivo. Die mittlere (± Standardabweichung) Genauigkeit war signifikant höher für KI-Modelle, die an In-vivo-Daten trainiert und getestet wurden (0.78±0.04). Modelle, die an In-vitro-Daten trainiert und getestet wurden, zeigten signifikant niedrigere Genauigkeiten (0.64±0.15; p<0.05). Auch Modelle, die in vitro getestet und in vivo trainiert wurden, zeigten signifikant geringere Genauigkeiten (0.70±0.01; p<0.01), ebenso wie Modelle, die in vitro trainiert und in vivo getestet wurden (0.61±0.04; p<0.05). Grund dafür war die Abnahme der Sensitivität (-10 % für in vitro trainierte Modelle und -27 % für in vivo trainierte Modelle). Falsch-positive Erkennungen wurden oft mit Restaurationen in Verbindung gebracht; bei falsch-negativen Erkennungen wurden häufig Areale als relevant erachtet, die nicht kariös waren (Aufmerksamkeitsproblem).
Schlussfolgerung: Eine Generalisierbarkeit der entwickelten KI-Modelle war nicht gegeben.
Klinische Relevanz: Für den klinischen Einsatz vorgesehene Modelle sollten auf in vivo gewonnenen Daten trainiert werden.
Objectives: We trained deep convolutional neural networks (CNNs) on Near-Infrared Light Transillumination (NILT) images that were taken in vivo or in vitro to detect prox-imal caries lesions to generate generalizability of the models.
Methods: NILT images of 226 extracted posterior human teeth (DIAGNOcam, KaVo, Biberach) were taken in vitro after assembling them in a dummy head. In vivo, 1319 teeth from 56 patients were obtained and segmented similarly. Proximal caries lesions were annotated independently by three experienced dentists and reviewed by a fourth. The segments were transformed into binary labels. ResNet classification mod-els were trained on both in vivo and in vitro datasets and 10-fold cross-validated. Gen-eralizability and explainability were explored. We used GradCAM to increase explain-ability.
Results: In vitro and in vivo data showed a prevalence of caries lesions of 41 % and 49 %, respectively. Models trained and tested in vivo performed significantly better (mean ± SD accuracy: 0.78 ± 0.04) than those trained and tested in vitro (accuracy: 0.64 ± 0.15: p < 0.05). Using in vivo models on in vitro data led to significantly lower accuracy (0.70 ± 0.01; p < 0.01). Similarly, when tested in vivo, models trained in vitro showed significantly lower accuracy (0.61 ± 0.04; p < 0.05). In both cases, this was due to decreases in sensitivity (-10 to −27 %).
Conclusions: Deep learning models showed limited generalizability and low accuracy for imagery from in vitro versus in vivo settings.
Clinical significance: Using in vitro imagery to create deep learning models should proofed for generalizability. Acceptable Deep learning models for NILT imagery are supposed to be trained on in vivo data.