Using questionnaires to assess constructs has a long standing tradition in psychological research. Several guidelines and best-practices for constructing questionnaires and scales have been proposed over the years. In most of these, it is recommended to generate more items than the final scale is supposed to include, test this item pool on a sample, and select those items that perform best for the (potentially) final scale. Recent developments have necessitated the use of much shorter scales, making the shortening of established scales a common setting in which items are selected from an original pool. Whether in scale shortening or in initial scale construction, the quality requirements for a valid and reliable scale are manifold and, not seldom, contradicting. Beyond this, modern psychological research is often based on complex study designs, making scales desirable, which are known to be adequate for longitudinal studies, multiple groups, multiple sources of information, or any combination thereof. This thesis presents the stuart approach for item selection, which allows for the simultaneous consideration of a multitude of quality criteria in complex study settings. To this end, item selection is defined as an I-dimensional multiple knapsack problem with assignment restrictions (IMKAR) and an adaptation of the MAX-MIN Ant-System (MMAS) is presented as an algorithmic approach to find solutions for this problem. In this context, item selection is based on generating promising solutions for final scales, evaluating these solutions via confirmatory factor analysis (CFA), and using the results of these analyses to guide the search for better solutions. Within this approach, an ideal measurement model and its restrictions must be defined a priori and solutions are then generated to best accomplish this ideal. Utilizing the CFA approach allows for item selection based on measurement models including multiple facets, multiple occasions, multiple groups, and multiple sources of information simultaneously and optimizing the final solution for criteria of model fit under assumptions of measurement invariance, among others. Because the aim of this thesis is to present an applicable, flexible approach for item selection, an extensive evaluation study was performed to investigate the performance of the chosen algorithmic approach and derive recommendations for applications. These recommendations were then transferred to three applications of item selection: (a) a longitudinal setting, incorporating measurement invariance over time as a crucial component in item selection for a mood scale, (b) a multiple-group setting, aimed at generating a cross-culturally comparable, ultra-short Big Five scale, and (c) a setting including self- and peer-reports in the step of item-selection, to generate a scale which can assess emotional expressivity via multiple sources of information. Overall, the stuart approach proved flexible in the accommodation of a wide variety of study designs, allowing for complex, application-specific objective functions and measurement models. Additionally, the evaluation study allowed for the recommendation of parameter settings for the alogrithmic approach, which generated solutions very close to optimal.
Das Verwenden von Fragebögen hat in der psychologischen Forschung eine lange Tradition. In diversen Richtlinien und Empfehlungen zur Fragebogenerstellung wird es empfohlen, mehr Items zu generieren als die finale Version des Fragebogens enthalten soll, diesen Item-Pool einer Stichprobe vorzulegen und dann die bestgeeigneten Items auszuwählen. Neuere Entwicklungen haben die Nutzung von viel kürzeren Skalen nötig werden lassen, sodass die Kürzung einer etablierten Skala ebenfalls zu einem gängigen Beispiel der Itemselektion geworden ist. Sowohl in Fällen der Skalenkürzung, als auch bei der Erstellung einer neuen Skala, sind die Qualitätsanforderungen an reliable und valide Skalen vielfältig und nicht selten widersprüchlich. Darüber hinaus ist moderne psychologische Forschung oft mit komplexen Studiendesigns verknüpft, wodurch Skalen vonnöten sind, welche für Längsschnittstudien, Multigruppenuntersuchungen, multi-methodale Studien oder eine Kombination aller drei geeignet sind. In dieser Dissertation wird der stuart Ansatz vorgestellt, der die simultane Berücksichtigung diverser Qualitätskriterien in komplexen Studiendesigns bei der Itemselektion erlaubt. Dafür wird diese als I-dimensionales multiples Rucksackproblem mit Zuweisungsrestriktionen (IMKAR) definiert und eine Abwandlung des MAX-MIN Ant-System (MMAS) zu dessen Lösen präsentiert. In diesem Kontext werden Items dadurch selektiert, dass verschiedene, vielsprechende Lösungen generiert, via konfirmatorischer Faktorenanalyse (CFA) analysiert, und deren Ergebnisse für die Erstellung neuer Lösungen weiter verwendet werden. In diesem Ansatz wird ein idealisiertes Messmodell, mit all seinen Restriktionen, vorgegeben und Lösungen generiert, die dieses Ideal bestmöglich erfüllen sollen. Die CFA erlaubt es dabei, mehrere Facetten, Messzeitpunkte, Gruppen und Quellen von Information gleichzeitig in die Itemselektion einzuschließen und die Lösungen auf, beispielsweise, Modellpassungskriterien unter Invarianzannahmen zu optimieren. Da es das Ziel dieser Dissertation ist, einen anwendbaren und flexiblen Ansatz zur Itemselektion zu präsentieren, wurde eine extensive Evaluationsstudie durchgeführt, um das Verhalten des ausgewählten Algorithmus zu untersuchen und Empfehlungen für Anwendungen abzuleiten. Diese Empfehlungen wurden auf drei Anwendungen übertragen: (a) eine Längsschnittstudie, in der Messinvarianz eine wichtige Komponente in der Itemselektion für eine Wohlbefindensskala darstellt, (b) eine Multigruppenuntersuchung, in der eine Kurzskala für die interkulturell vergleichbare Erfassung der Big Five generiert werden soll und (c) eine Untersuchung, in der Selbst- und Fremdeinschätzungen in die Itemselektion einbezogen werden um eine Skala zur Erfassung von Emotionsausdruck zu erstellen. Insgesamt erwies sich der stuart Ansatz als flexibel genug um die Itemselektion in einer Breite verschiedener Studiendesigns, unter Verwendung von anwendungsspezifischen Zielfunktionen und Messmodellen, zu ermöglichen. Zusätzlich konnten aus der Evaluationsstudie Parameterempfehlungen für den genutzten Algorithmus abgeleitet werden, welche Lösungen sehr nahe am Optimum generierten.