Background - Item response theory (IRT) methods are increasingly used to standardize the assessment of patient-reported outcomes. By estimating an IRT model with a large number of items measuring the same trait, a construct-based item bank can be established. In theory, any subset of relevant items for a specific population can be selected from an IRT-calibrated item bank to assess an individual’s trait level on a standardized scale. However, health-related constructs, such as physical functioning or depression, are often broadly defined, and items of the same item bank may differ in corresponding subdomain or item format, potentially affecting construct validity if different subsets are used for measuring the same latent trait. Based on three studies on recently established item banks, this thesis aims to investigate if different item subsets sufficiently represent the latent construct defined by an entire item bank. Methods - Study 1: Data from N=3,315 German-speaking subjects who answered the Patient Health Questionnaire depression scale (PHQ-9) were analyzed. For estimating depression scores, PHQ-9 item parameters were used as reported for an IRT-calibrated depression item bank consisting of 143 items from 11 questionnaires in an earlier study. These scores were compared to newly estimated scores resulting from fitting an IRT model solely to the PHQ-9 data. Study 2: The German 121-item PROMIS Physical Function item bank covering different subdomains was psychometrically tested (N=266). Nonparametric IRT and factor analysis were used to evaluate scalability and unidimensionality. Study 3: PROMIS Wave 1 data (N=15,719 subjects from the US) were used to compare measurement precision between three PROMIS Physical Function short forms with similar content but different item format. A common IRT model was estimated for these short forms. Unidimensionality was evaluated using one-factor and bifactor models. Results - Study 1: Reestimating the model solely based on PHQ-9 data led to similar depression scores compared to using item bank parameters for scoring. Study 2: The PROMIS Physical Function item bank showed sufficient psychometric properties, including unidimensionality. Scores based on different (subdomain-specific) item subsets were highly correlated with the full item bank. Study 3: The item format affected measurement precision and range but not the underlying construct. Conclusion - These findings indicate construct validity of using item subsets from large IRT-calibrated item banks for the assessment of patient-reported outcomes. This applies even when the item subsets vary in subdomain-specific content or item format, enabling high flexibility regarding the use of tailored (e.g., population-specific) measurement tools. (bitte Sprache wählen)
Hintergrund - Methoden der Item-Response Theorie (IRT) werden zunehmend zur standardisierten Erfassung patientenberichteter Endpunkte genutzt. Durch das Schätzen eines IRT-Modells mit einer großen Anzahl an Items, die dieselbe Eigenschaft messen, kann eine konstruktbasierte Itembank kalibriert werden. Theoretisch kann jede Teilmenge einer IRT-kalibrierten Itembank, bestehend aus relevanten Items für eine bestimmte Population („Item-Subset“), verwendet werden, um die Eigenschaftsausprägung einer Person auf einer standardisierten Skala abzubilden. Gesundheitsbezogene Konstrukte, wie körperliche Funktionsfähigkeit oder Depression, sind allerdings oft breit definiert und Items innerhalb einer Itembank können sich hinsichtlich Subdomäne oder des verwendeten Itemformats unterscheiden. Dies könnte die Konstruktvalidität beeinträchtigen, wenn unterschiedliche Item-Subsets zur Erfassung derselben latenten Eigenschaft verwendet werden. Die vorliegende Doktorarbeit umfasst drei Studien zu kürzlich entwickelten Itembanken und hat zum Ziel, zu untersuchen, ob verschiedene Item-Subsets das latente Konstrukt, das durch die Gesamtheit der Items in einer Itembank definiert ist, hinreichend repräsentieren. Methoden - Studie 1: Daten von N=3,315 deutschsprachigen Personen, die das Depressionsscreening des „Patient Health Questionnaire“ (PHQ-9) beantwortet haben, wurden analysiert. Zur Bestimmung von Depressionswerten wurden PHQ-9-Itemparameter verwendet, die im Rahmen einer früheren Studie für eine IRT-kalibrierte Depressions-Itembank, bestehend aus 143 Items aus insgesamt 11 Fragebögen, berichtet wurden. Diese Depressionswerte wurden anschließend mit neu geschätzten Depressionswerten verglichen, die aus einem IRT-Modell auf Basis der neuen PHQ-9 Daten resultierten. Studie 2: Die deutschsprachige PROMIS Physical Function Itembank, die verschiedene Subdomänen körperlicher Funktionsfähigkeit umfasst, wurde psychometrisch überprüft (N=266). Nonparametrische IRT-Methoden und Faktorenanalysen wurden verwendet um Skalierbarkeit und Eindimensionalität zu überprüfen. Studie 3: Anhand von PROMIS Wave 1 Daten (N=15,719 Probanden aus den USA) wurde die Messgenauigkeit zwischen drei PROMIS Physical Function Kurzformen mit gleichem Inhalt aber unterschiedlichem Itemformat verglichen. Für die Kurzformen wurde ein gemeinsames IRT-Modell geschätzt. Die Eindimensionalität der Items wurde mittels unidimensionaler Faktorenanalysen und Bifaktor-Modellen überprüft. Ergebnisse - Studie 1: Die neu geschätzten Depressionswerte auf alleiniger Basis der PHQ-9 Daten waren vergleichbar mit den Depressionswerten auf Grundlage von Itemparametern einer zuvor veröffentlichten Depressions-Itembank. Studie 2: Die deutschsprachige PROMIS Physical Function Itembank zeigte gute psychometrische Eigenschaften, einschließlich Eindimensionalität. Verschiedene (subdomänenspezifische) Item-Subsets korrelierten hoch mit der gesamten Itembank. Studie 3: Das Itemformat beeinflusste Messgenauigkeit und Messbereich, nicht aber das latente Konstrukt. Fazit - Die Ergebnisse lassen darauf schließen, dass die Erfassung patientenberichteter Endpunkte anhand von Item-Subsets aus umfangreichen IRT-kalibrierten Itembanken konstruktvalide ist. Dies trifft selbst dann zu, wenn sich die Item-Subsets bezüglich der gemessenen Subdomäne oder des Itemformats unterscheiden, was ein hohes Maß an Flexibilität hinsichtlich der Verwendung von maßgeschneiderten (z.B. populationsspezifischen) Messinstrumenten ermöglicht.