dc.contributor.author
Büttner, Martha
dc.date.accessioned
2024-11-27T08:00:25Z
dc.date.available
2024-11-27T08:00:25Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/44779
dc.description.abstract
Künstliche Intelligenz (KI) wurde vielseitig in der Zahnmedizin angewandt, in der Parodontologie beispielsweise für die Detektion von parodontalem Knochenverlust auf Röntgenbildern. Die meisten KI-Modelle zur Bildanalytik werden durch sogenanntes überwachtes Lernen entwickelt, wobei neben Rohdaten auch Markierungen (Annotationen) gesuchter Klassen oder Pathologien zur Verfügung gestellt werden müssen. Bei der Detektion von Objekten auf Bildern werden z.B. Umrahmungen mit Boxen zur Markierung eingesetzt. Fehlt es an Zeit, Sorgfalt oder Kalibrierung der Annotator*innen können ungenaue Annotationen die Folge sein. Die vorliegende Arbeit untersuchte den Einfluss (un-)genauer Annotationen auf KI-Modelle in der Zahnmedizin anhand einer exemplarischen Aufgabe, der Detektion von Zahnstein auf Bissflügelaufnahmen. Dabei wurden zwei Szenarien betrachtet: (1) konsistent zu große oder zu kleine Annotationen, wie sie auftreten können, wenn einzelne Personen fehlerhaft annotieren; (2) inkonsistent zu große oder zu kleine Annotationen, um mehrere Personen mit fehlender Kalibrierung zu simulieren. Die Evaluation der resultierenden KI-Modelle erfolgte sowohl auf genau annotierten Testdaten als auch auf ungenau annotierten Testdaten (äquivalent zu den jeweiligen Trainingsdaten). Letzteres diente der Bestimmung einer möglichen Maskierung der zu erwartenden Modellungenauigkeit durch ungenaue Annotationen. 4837 Bissflügelaufnahmen wurden in einem zweistufigen Verfahren möglichst genau annotiert. Das Objektdetektionsmodell YOLOv5 wurde auf einem genau annotierten, 27 konsistent ungenau annotierten und 9 inkonsistent ungenau annotierten Datensätzen trainiert und evaluiert. 5-fache Kreuzvalidierung wurde durchgeführt und die mittlere durchschnittliche Genauigkeit (mAP, engl. mean average precision) ermittelt. Die Referenzgruppe für statistische Vergleiche war das Modell, das auf genau annotierten Daten trainiert wurde. Letzteres erreichte eine mAP von 0,77 (SD = 0,01). Konsistent zu kleine Annotationen führten zu einer Verringerung der Performance unabhängig davon, ob auf genau annotierten Daten (0,74 (0,01)) oder auf ungenau annotierten Daten (0,75 (0,01)) getestet wurde. Konsistent vergrößerte Annotationen in den Trainingsdaten führten zu einer Verringerung der Performance, wenn sie auf genau annotierten Daten getestet wurden (bereits bei Verdopplung der BB-Fläche). Bei ungenau annotierten Testdaten war eine solche Performanceabnahme erst bei drastischen Ungenauigkeiten (70-fache Flächenvergrößerung) detektierbar. Bei inkonsistenten Ungenauigkeiten führte die Testung sowohl auf ungenau als auch auf genau annotierten Testdaten zu signifikanten Performanceverlusten. Ungenau annotierte Trainingsdaten können die Modellperformance negativ beeinflussen, wobei dieser Einfluss teilweise durch das Testen auf ebenso ungenau annotierten Testaten maskiert werden kann. Genau annotierte Daten waren für Training und Evaluation von KI Modellen zur Zahnsteindetektion unabdingbar.
de
dc.description.abstract
Artificial Intelligence (AI) has been widely applied in dentistry for tasks such as periodontal bone loss detection on radiographs. Most AI applications are trained in a supervised manner, where labeling (e.g., marking of specific areas using bounding box-es, (BB)) is required. A lack of time, diligence or calibration between multiple annotators may result in inaccurate labels. The impact of annotation accuracies and hence inaccurate labels has not been explored in dentistry and only rarely in general. This study evaluated the impact of (in-)accurate labels on the exemplary task of dental calculus detection on bitewing radiographs. A dataset of 4837 bitewing radiographs was annotated for dental calculus using BB. Two scenarios were evaluated: (1) consistently too large or too small annotations, as might be the case when single individuals label inaccurately, and (2) inconsistently too large or too small annotations, as might results from labeling by multiple individuals lacking calibration. Models were evaluated on both accurately labeled test data and inaccurately labeled test data (the latter is relevant as test and training data usually emanate from the same label process). The object detection model YOLOv5 was trained and evaluated on one accurately labeled dataset, 27 consistently inaccurately labeled dataset and 9 inconsistently inaccurately labeled datasets. 5-fold cross-validation was performed and models were evaluated using mean average precision (mAP). The reference group was the model trained on accurately labeled data, which achieved a mAP of 0.77 (SD = 0.01). Performance decreased immediately when trained on consistently too small annotations and tested on accurately labelled data, mAP (SD) = 0.74 (0.01), or inaccurately labelled data, mAP 0.75 (0.01), respectively. When trained on too large labels, model performance did not decrease when tested on inaccurately labeled data except when BB were drastically too large (70-fold increase in area, mAP (SD) = 0.75 (0.01). Testing on accurately labeled data showed a decay in performance starting at a twofold area enlargement, mAP (SD) = 0.24 (0.05). Inconsistent label inaccuracies led to performance decreases on both inaccurately and accurately labeled test data. Training on inaccurately labeled data negatively impacts on model performance, while testing on the same inaccurately labeled data may mask this performance decrease. Accurately labeled data was critical when training and testing dental calculus detection models.
en
dc.rights.uri
https://creativecommons.org/licenses/by/4.0/
dc.subject
Label Accuracy
en
dc.subject
Deep Learning
en
dc.subject
Dental Calculus
en
dc.subject
Bitewing Radiographs
en
dc.subject.ddc
600 Technik, Medizin, angewandte Wissenschaften::610 Medizin und Gesundheit::610 Medizin und Gesundheit
dc.title
Der Einfluss von Annotationsgenauigkeit auf die automatisierte Detektion von Zahnstein auf Bissflügelaufnahmen
dc.contributor.gender
female
dc.contributor.firstReferee
N.N.
dc.contributor.furtherReferee
N.N.
dc.date.accepted
2024-11-29
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-44779-3
dc.title.translated
The Impact of Label Accuracy on Dental Calculus Detection on Bitewing Radiographs using Deep Learning
eng
refubium.affiliation
Charité - Universitätsmedizin Berlin
refubium.isSupplementedBy.doi
https://doi.org/10.3390/jcm12093058
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access