Objectives: Accurate segmentation of intracerebral hemorrhage (ICH) and intra-ventricular hemorrhage (IVH) is essential for initial ICH volume estimation, which is a pivotal predictor for 30-day mortality rate. This study aimed to validate and enhance the performance of the DeepBleed, the first publicly available neural network model that allows for 3D segmentation of ICH and IVH. Methods: We conducted a retrospective analysis using a multicenter dataset with pa-tients of ICH and IVH from three European stroke centers. The dataset was divided into a training, validation, and test cohort. Model performance was assessed using dice score (DSC), sensitivity, and positive predictive values (PPV) metrics, both in the origi-nal (OM) and retrained model (RM) for each ICH location. T-test and multivariate linear regression were used to compare the DSC between the models and identify variables associated with DSC. Pearson correlation coefficients were calculated to evaluate vol-umetric agreement with the ground truth (GT), and intraclass correlation coefficient (ICC) to evaluate segmentation agreement with expert raters. Results: A total of 1040 patients were included in the study. Median DSC, sensitivity, and PPV for the OM and RM were comparable. Furthermore, for infratentorial hemor-rhage, the RM showed improvement in median DSC for brainstem and cerebellum compared to the OM. Hemorrhage volume and location were found to be significant factors influencing the DSC (p < 0.05). Additionally, automated segmentations demon-strated strong agreement with the ground truth in terms of volumetric measurements (r > 0.90), and they also exhibited excellent interrater reliability with the expert raters (ICC ≥ 0.9, p <0.001). Conclusions: Our study provided the first external validation of the publicly available DeepBleed network for spontaneous ICH in which the model showed an overall good generalization. After retraining the networks, accuracy improved significantly in seg-menting infratentorial hemorrhages, which are associated with poor prognosis. The automatic segmentations were strongly correlated with the GT in terms of volumetric measurements and ICC, making DeepBleed suitable for further automatic quantifica-tion of initial ICH volume.
Ziele: Eine genaue Segmentierung der intrazerebralen Blutung (ICH) und der intraventrikulären Blutung (IVH) ist für die Schätzung des ICH-Volumens unerlässlich, das ein entscheidender Prädiktor für die 30-Tage-Mortalitätsrate ist. Diese Studie zielte darauf ab, die Leistung von DeepBleed zu validieren und zu verbessern, dem ersten öffentlichen verfügbaren neuronalen Netzwerkmodell, das eine 3D-Segmentierung von ICH und IVH ermöglicht. Methoden: Wir führten eine retrospektive Analyse mit einem multizentrischen Datensatz mit Patienten von ICH und IVH aus drei europäischen Schlaganfallzentren durch. Der Datensatz wurde in Trainings-, Validierungs- und Testkohorte unterteilt. Die Modellleistung wurde anhand von Dice Score (DSC), Sensitivität und positiven Vorhersagewerten (PPV) bewertet, sowohl im ursprünglichen (OM) als auch im neu trainierten Modell (RM) für jede ICH Lokalisation. T-Test und multivariate lineare Regression wurden verwendet, um die DSC zwischen den Modellen zu vergleichen und mit der DSC assoziierte Variablen zu identifizieren. Pearson-Korrelationskoeffizienten wurden berechnet, um die volumetrische Übereinstimmung mit der Ground Truth (GT) zu bewerten, und der Intraclass-Korrelationskoeffizient (ICC), um die Segmentierungsübereinstimmung mit erfahrenen Bewertern zu beurteilen. Ergebnisse: Insgesamt wurden 1040 Patienten in die Studie eingeschlossen. Der mittlere DSC, die Sensitivität und der PPV für OM und RM waren vergleichbar. Zusätzlich zeigte der RM im Vergleich zum OM eine Verbesserung der mittleren DSC für Hirnstamm und Kleinhirn. Es wurde festgestellt, dass Blutungsvolumen und -ort wesentliche Faktoren sind, die den DSC beeinflussen (p < 0,05). Darüber hinaus zeigten die automatisierten Segmentierungen eine starke Übereinstimmung mit der GT in Bezug auf volumetrische Messungen (r > 0,90), und sie zeigten eine hervorragende Interrater-Zuverlässigkeit mit den Expertenbewertern (ICC ≥ 0,9, p <0,001). Schlussfolgerungen: Unsere Studie lieferte die erste externe Validierung des öffentlich zugänglichen DeepBleed-Netzwerks für spontane ICH, bei der das Modell eine insgesamt gute Generalisierung zeigte. Nach dem erneuten Training verbesserte sich die Genauigkeit bei der Segmentierung infratentorieller Blutungen erheblich, die mit einer schlechten Prognose verbunden sind. Die automatischen Segmentierungen korrelierten in Bezug auf Volumenmessungen und ICC stark mit der GT, sodass DeepBleed für die weitere automatische Quantifizierung des ICH-Volumens geeignet ist.