Federated Learning (FL) is a privacy-enhancing Machine Learning (ML) paradigm that allows training models with multiple institutes without exchanging sensitive data. The collaborative approach of FL offers immense potential to yield more robust models than training with Local Learning (LL), a popular learning paradigm where models are trained exclusively on data from one center. Simultaneously, its privacy-by-design approach overcomes hurdles associated with privacy regulations that often impede the gold standard of learning paradigms based on cross-center training through data-sharing initiatives, namely Central Learning (CL). However, FL introduces a significant technical overhead and may result in performance gaps to CL primarily caused by data heterogeneities between participating centers.
In the underlying study, FL was employed as a pioneering application in dentistry enabled through the collaborative efforts of nine institutes worldwide. Its potential and possible challenges were demonstrated by utilizing a tooth segmentation task performed on panoramic radiographs. Each center provided between 143 and 1881 data samples, leading to 4177 radiographs included in the study. Training was performed with all three learning paradigms, and resulting models were evaluated regarding their robustness, i.e., model performance, measured on the respective center's local test set, and model generalizability, quantified by the performance on a pooled test dataset of all participants.
Chances of FL were demonstrated by comparing its resulting model robustness to LL. Thereby, FL outperformed LL significantly in terms of model performance for 8 out of 9 centers. Only the largest data provider did not improve the performance on its own local data with FL. The generalizability of FL models was reportedly better across all centers than achieved with LL.
The major challenge of FL -- its performance gap towards the gold standard CL -- was investigated through a comparison of the model robustness achieved with both learning paradigms. As expected, CL significantly outperformed FL across all centers for model performance and generalizability. Through qualitative investigation, partially large differences were found within the data distribution of the centers, which were likely the cause of this performance gap. The employment of methods aiming to reduce the performance gap has not achieved the desired outcomes. Neither equalizing the contributions of centers in FL, which were previously weighted by data share, nor employing the Stochastic Controlled Averaging algorithm (SCAFFOLD) has effectively reduced the robustness gap towards CL.
Consequently, FL has proven as a suitable alternative to LL for training performant and generalizable models in dentistry when CL, as a gold standard, is not an option due to strict privacy regulations for sensitive dental data. Further research has to be conducted to more efficiently reduce the robustness gap towards CL and exploit the full potential of FL in dentistry to accelerate the transition of machine learning models from research to clinical environments.
Föderales Lernen (FL) ist ein datenschutzfreundliches Lernparadigma, mit dem zentrumsübergreifend Modelle für maschinelles Lernen (ML) trainiert werden können, ohne dass sensible Daten ausgetauscht werden müssen. Der kollaborative Ansatz bietet großes Potenzial robustere Modelle zu erhalten als mit lokalem Lernen (LL), bei dem Modelle ausschließlich auf Daten aus einem Zentrum trainiert werden. Gleichzeitig überwindet der datenschutzfreundliche Ansatz von FL kritische Hürden von Datenschutzbestimmungen. Diese Vorschriften verhindern oft den Goldstandard der Lernparadigmen, das zentrale Lernen (CL), welches auf zentrumsübergreifendem Training basiert und auf gemeinsamen Datenaustausch aufbaut. Allerdings ist FL mit einem erheblichen technischen Aufwand verbunden und kann zu Leistungsunterschieden gegenüber CL führen, die in erster Linie durch die Heterogenität der Daten zwischen den teilnehmenden Zentren verursacht werden. In dieser Studie wurde FL zum ersten Mal in der Zahnmedizin eingesetzt und dessen Chancen und Herausforderungen anhand einer Zahnsegmentierungsaufgabe von Panoramaschichtaufnahmen untersucht. Die Studie basierte auf der Zusammenarbeit von neun internationalen Instituten, die 143 bis 1881 Datenproben pro Zentrum zur Verfügung stellten, was zu einer Gesamtzahl von 4177 Panoramaschichtaufnahmen führte. Das Training wurde mit allen drei Lernparadigmen durchgeführt, und die daraus resultierenden Modelle wurden hinsichtlich ihrer Robustheit bewertet. Robustheit beinhaltet die Modellleistung, die anhand des lokalen Testdatensatzes des jeweiligen Zentrums gemessen wurde und die Modellgeneralisierbarkeit, die anhand der Leistung in einem aggregierten Testdatensatz aller Zentren quantifiziert wurde. Das Potenzial von FL wurde durch einen Vergleich der Modellrobustheit mit LL demonstriert. FL übertraf LL in Bezug auf die Modellleistung in 8 von 9 Zentren deutlich. Lediglich das Zentrum mit den meisten lokalen Daten konnte die Leistung auf den eigenen Daten mit FL nicht verbessern. In Bezug auf die Generalisierbarkeit übertraf FL LL in allen Zentren. Die größte Herausforderung von FL - der Leistungsrückstand gegenüber dem Goldstandard CL - wurde durch den Vergleich der Modellrobustheit beider Lernparadigmen untersucht. Wie erwartet, übertraf CL FL in allen Zentren signifikant in Bezug auf Modellleistung und Generalisierbarkeit. Bei einer qualitativen Untersuchung wurden zum Teil große Unterschiede in der Datenverteilung der Zentren festgestellt, welche vermutlich zu den Leistungsunterschieden geführt haben. Der Einsatz von Methoden, die darauf abzielen, den Leistungsunterschied zu verringern, hat nicht zu den gewünschten Ergebnissen geführt. Weder die Angleichung der Beiträge der Zentren in FL, die zuvor anhand des Datenanteils gewichtet wurden, noch die Anwendung des Algorithmus der stochastischen kontrollierten Mittelwertbildung (SCAFFOLD) haben den Robustheitsunterschied zu CL wirksam verringert. Folglich hat sich FL als geeignete Alternative zu LL erwiesen, um leistungsfähige und verallgemeinerbare Modelle in der Zahnmedizin zu trainieren, wenn CL als Goldstandard aufgrund strenger Datenschutzbestimmungen für sensible zahnmedizinische Daten nicht umgesetzt werden kann. Dennoch müssen weitere Forschungsarbeiten durchgeführt werden, um die Robustheitslücke gegenüber CL effektiv zu verringern und das volle Potenzial von FL in der Zahnmedizin auszuschöpfen zu können und somit den Übergang von ML Modellen von der Forschung in die klinische Umgebung zu beschleunigen.