Ziele: Entwicklung eines Convolutional Neural Networks (CNN) zur Anwendung von Machine Learning zur Computer-gestützten Klassifizierung apikaler Läsionen (AL) auf zahnärztlichen Panoramaröntgenscans.
Methoden: Ein annotierter Datensatz von 2001 Zahnsegmenten aus 85 zahnärztlichen Panoramaschichtaufnahmen wurden für das Training des CNN eingesetzt. Die Bilder waren von sechs Experten auf einer ordinal skalierten Skala (0: kein AL; 1: erweitertes Parodontalligament/unsichere AL; 2: eindeutig nachweisbare Läsion/sichere AL) bewertet worden. Zur Festlegung, ob AL vorhanden war, mussten vier Experten sich einig sein. Für die Bildklassifizierung (apikale Läsion vorhanden ja/nein) mittels Machine Learning wurde eine eigene CNN-Architektur entwickelt. Bei einer Hyperparametersuche in Form einer grid search wurden zudem batch size, learning rate, batch normalization, Augmentierung und dropout variiert. Die Klassifikationsleistungsfähigkeit des CNNs wurde in Bezug auf die Metriken AUC („area-under-the-receiver-operating-characteristics-curve“), Sensitivität, Spezifität und negativem und positivem Vorhersagewert (NPV/PPV) hin betrachtet und in einem automatisierten Verfahren dokumentiert. Die Validierung erfolgte über eine zehnfache Kreuzvalidierung. Mit Hilfe eines group shufflings wurde sichergestellt, dass Zahnsegmente eines Gebisses jeweils entweder ausschließlich im Trainings- oder im Validierungsset lagen, um Wechselwirkungen auszuschließen. In Subgruppenanalysen wurde die Applikation des CNNs auf verschiedene Zahntypen untersucht. Ebenso wurden verschiedenen Übereinstimmungsgrade der Mehrheitsentscheidung der Experten variiert und zwei Szenarien („sowohl unsichere als auch sichere AL“ versus „nur sichere AL“) miteinander verglichen.
Ergebnisse: Ein siebenschichtiges feed forward CNN mit 4.299.651 trainierbaren Gewichten wurde entwickelt. Der mittlere (Standardabweichung) AUC des CNN für gleichzeitig sichere und unsicher AL lag bei 0,85 (0,04), die Sensitivität und Spezifität bei 0,65 (0,12) bzw. 0,87 (0,04). Der resultierende PPV betrug 0,49 (0,10), der NPV 0,93 (0,03) bei einer Prävalenz von 0,16 (0,03). Bei Molaren war die Sensitivität signifikant höher als bei anderen Zahntypen, während die Spezifität geringer war. Für ausschließlich „sichere AL“ lag der AUC bei 0,89 (0,04). Wurde der Grad der Übereinstimmung der Experten auf sechs erhöht, stieg der AUC signifikant auf 0,95 (0,02) und die Sensitivität auf 0,74 (0,19) stieg.
Schlussfolgerung: Mit Hilfe eines CNNs, das mit grid search, Augmentierung und dynamischer Architekturvariation optimiert wurde, konnte auf Basis eines relativ kleinen Bilddatensatzes eine Computer-gestützte Klassifizierung von AL mit zufriedenstellender Klassifizierungs-Genauigkeit entwickelt werden.
Objectives: We developed a convolutional neural network (CNN) to apply machine learning for computer-aided classification of apical lesions (AL) on dental radiographs. Methods: An annotated dataset of 2001 tooth segments from 85 dental panoramic images was used for CNN training. The images were evaluated by six experts on an ordinally scaled scale (0: no AL; 1: extended periodontal ligament/insecure AL; 2: clearly detectable lesion/secure AL). To determine whether AL was present four experts had to agree. A CNN architecture was developed for image classification (apical lesion present yes/no) using machine learning. To optimize the CNN batch size, learning rate, batch normalization, augmentation, and dropout were tuned in a hyperparameter grid search. The classification performance of the CNN was assessed with respect to the metrics AUC ("area-under-the-receiver-operating-characteristics-curve"), sensitivity, specificity and negative and positive predictive value (NPV/PPV). The validation results for each training and validation run were documented in an automated process. A ten-cross-fold-validation was performed. The application of group shuffling ensured that tooth segments of each dentition were either exclusively in the training set or in the validation set to avoid unwanted correlations between training and validation. The CNN was applied to different tooth types for subgroup analyses. Likewise, different levels of agreement were varied when computing the majority vote of the experts. Two scenarios ("both unsafe and safe AL" versus "only safe AL") were compared. Results: A seven-layer feed-forward CNN with 4,299,651 trainable weights was developed. The mean (standard deviation) AUC of CNN for both certain and uncertain AL was 0.85 (0.04), sensitivity and specificity resulted in 0.65 (0.12) and 0.87 (0.04), respectively. The prevalence in the base-case was 0.16 (0.03) and the PPV was 0.49 (0.10) while the NPV was 0.93 (0.03). Compared to other tooth types sensitivity for molars was significantly higher while specificity was lower. For clearly detectable AL only, the AUC was 0.89 (0.04). When the level of agreement between the votes of the experts was increased to six, the AUC increased significantly to 0.95 (0.02), and the sensitivity increased to 0.74 (0.19). Conclusion: A CNN developed based on a relatively small image data set and optimized through grid search, augmentation and dynamic architecture variation can be used for computer-aided classification of AL with satisfactory discrimination ability.