Background: Formative assessment in competency-based curricula requires detailed feedback for learners, which requires at least partial disclosure of the examination items. Disclosure could also reduce student anxiety and improve transparency. How-ever, many medical schools rely on the reuse of items for resource reasons, so that disclosure could endanger reliability, difficulty and comparability of future exams. From 2017, after careful consideration, Charité-Universitätsmedizin Berlin decided to de fac-to publish the items used by changing security measures. Objective: Examiners are faced with the challenge of finding a balance between feed-back, transparency and reliability. Our scenario provided a unique opportunity to ana-lyse the impact of disclosure and reuse on item psychometrics and exam results using a large cohort and to provide decision support data. Methods: We analysed 5 exam periods from 2017 to 2019 retrospectively and com-pared the three groups "new items", "reused, not disclosed items" and "reused, dis-closed items" in terms of difficulty and discriminatory power as well as the difference between these parameters for reused items and their initial use. We analysed the change in mean difficulty and selectivity, exam grades, pass rates and the proportion of students affected by the sliding clause over the study period. One-way ANOVAs and t-tests were used for the analysis. Results: We analysed 10,148 items used in 199 examinations with 23,507 participants. Reused, published items were easier (M = 0.83) than reused, unpublished (M = 0.71) and new items (M = 0.66; p < 0.001). During the study period, the proportion of reused, published items increased continuously to 48%, the difficulty coefficient changed from M = 0.70 to a maximum of 0.76 (p < 0.001) and the mean exam grade from M = 2.64 to 2.41 (p < 0.001). I.e., items became easier and grades improved. Discrimination im-proved only slightly, pass rate was not affected. The proportion of students affected by the automatic adjustment clause clause decreased from 39.7 to 26.9 % (p < 0.001). Conclusion: The results show that reused, published items are easier to solve and could therefore negatively influence the reliability of the entire exam. However, when using a large item-bank, as in our study, and applying the automatic adjustment clause, the effect on final exam grades and pass rates appears to be small to non-existent, so that the advantages of disclosing items may outweigh the disadvantages, depending on the purpose of the exam.
Hintergrund: Formative Prüfungen in kompetenzbasierten Curricula verlangen nach detailliertem Feedback für die Lernenden, was eine zumindest teilweise Veröffentlichung der Prüfungsitems erfordert. Zudem könnte eine Veröffentlichung Prüfungsangst lindern und Transparenz erhöhen. Viele Fakultäten sind aus Ressourcengründen jedoch auf die Wiederverwendung von Prüfungsitems angewiesen, sodass eine Veröffentlichung der Items die Reliabilität, Schwierigkeit und Vergleichbarkeit der nachfolgenden Prüfungen gefährden könnte. Nach sorgfältiger Abwägung entschied sich die Charité-Universitätsmedizin Berlin ab dem Jahr 2017 mittels einer Änderung der Geheimhaltungsmaßnahmen zur de facto-Veröffentlichung der verwendeten Items. Zielsetzung: Prüfungsverantwortliche stehen vor der Herausforderung, einen Mittelweg zwischen Feedback, Transparenz und Reliabilität zu finden. Unser Szenario bot die bisher einmalige Gelegenheit, den Einfluss von Veröffentlichung und Wiederverwendung von Items auf psychometrische Parameter und Prüfungsergebnisse anhand einer großen Kohorte zu untersuchen und Daten zur Entscheidungsunterstützung zu liefern. Methodik: Wir untersuchten 5 Klausurperioden 2017 bis 2019 retrospektiv und verglichen die drei Gruppen „Neue Items“, „wiederverwendete, nicht veröffentlichte Items“ und „wiederverwendete, veröffentliche Items“ bezüglich Schwierigkeit und Trennschärfe sowie die Differenz dieser Parameter bei wiederverwendeten Items zu deren Erstverwendung. Wir analysierten die Veränderung von durchschnittlicher Schwierigkeit und Trennschärfe, Prüfungsnoten, Bestehensquoten und Anteil der von der Gleitklausel betroffenen Studierenden über den Studienzeitraum. Zur Analyse dienten ein-faktorielle ANOVAs und t-Tests. Ergebnisse: Wir analysierten 10.148 Items aus 199 Prüfungen mit 23.507 Teilnehmenden. Wiederverwendete, veröffentlichte Items waren leichter (M = 0,83) als wiederverwendete, nicht veröffentlichte (M = 0,71) und neue Items (M = 0,66; p < 0,001). Während des Studienzeitraums stieg der Anteil der wiederverwendeten, veröffentlichten Items kontinuierlich bis auf 48%, der Schwierigkeitskoeffizient veränderte sich von M = 0,70 auf maximal 0,76 (p < 0,001) und die Durchschnittsnote von M = 2,64 auf 2,41 (p < 0,001). D.h., Items wurden leichter und Durchschnittsnoten besser. Die Trennschärfe verbesserte sich minimal, die Bestehensquote war nicht beeinflusst. Der Anteil der von der Gleitklausel betroffenen Studierenden sank von 39,7 auf 26,9 % (p < 0,001). Schlussfolgerung: Die Ergebnisse zeigen, dass wiederverwendete, veröffentlichte Items leichter zu lösen sind und damit die Reliabilität der gesamten Prüfung negativ beeinflussen könnten. Bei Verwendung einer großen Anzahl an Items, wie in unserem Fall, sowie Anwendung der Gleitklausel scheint der Effekt auf die letztendlichen Noten und die Bestehensquoten jedoch gering zu sein, sodass die Vorteile einer Veröffentlichung von Items je nach Zweck der Prüfung die Nachteile überwiegen könnten.