In educational and vocational settings standardized tests and questionnaires are widely used (Fernández-Ballesteros, 1999). Procedures vary between specific assessment methods considerably by covering paper-pencil and computerized assessment as well as testing of groups or individuals. With focus on standardized tests, in most situations two interacting parts can be differentiated: a test taker – who is requested to show a certain behavior – and an examiner – who administers the procedure (e.g., Anastasi & Urbina, 1997). Research has repeatedly shown that the examiner can have a significant influence on the behavior of the test taker (cf. Rosenthal, 1976; Rosenthal, 1995; Sattler & Theye, 1967). Whereas many of those undesired effects can be avoided through standardization of assessment (e.g., Sattler & Theye, 1967), some sources of examiner effects seem to be inevitable. At special risk are physical cues that are related to social roles and stereotypes, e.g. gender and ethnicity. Research has shown that examiners’ ethnicity may influence the performance of test takers on standardized achievement tests (Huang, 2009; Mishra, 1980). There is a lack of current research considering possible gender effects in such situations. The major aim of this thesis was to investigate the influence of the examiner’s gender on the test taker’s performance on standardized tests. In achievement testing test takers usually cannot choose the person who will administer the test. We therefore do not know if test takers would prefer certain examiners by implicitly expecting better or more convenient test conditions. There is currently no investigation of test takers’ perception of and preference for examiners. Therefore, a second aim of this thesis was to explore how test takers perceive and rate examiners, and moreover who they prefer for administration if they are given a choice. This doctoral thesis comprises four studies. The first and the second studies applied an individual face-to-face testing at the Free University of Berlin. A verbal knowledge test consisting of two modules was employed: The first part measures self-estimated verbal knowledge and the second part measures amount of de facto verbal knowledge. Test takers were nonpsychology students (N = 93 in Study 1; N = 114 in Study 2), participating voluntarily. Examiners were psychology students – either diploma students (N = 20, Study 1) or diploma and bachelor students (N = 22, Study 2). The results of the first study revealed that male and female test takers estimated their own knowledge higher when tested by a female examiner. In the second study additionally perceived attractiveness of the examiner was included and a significant three-way interaction of gender of test taker, gender of examiner, and perceived attractiveness of the examiner on the performance found: Test takers who were tested by an attractive same-gender examiner showed poorer performance than test takers in mixed-gender settings or test takers who perceived the examiner as not attractive. The third study investigated how examiners are perceived. First, a pilot study was conducted, asking test takers (N = 129) to choose either a male or a female examiner for an upcoming testing. Significantly more test takers decided for a female than for a male examiner. In the following main study an online design was employed. Students (N = 375) from different universities in Germany watched four short video clips of male and female examiners of two age groups giving standardized test instructions. Participants were asked to rate the examiners’ expertise and social competence and eventually choose one favorite examiner. Results showed no differences in perceived expertise due to gender, but higher ratings of social competence for female examiners. Women were significantly more often preferred than men. The fourth study used data from the German Socio-economic panel. The sample consisted of 2,863 participants who took part in an additional short achievement test measuring perceptual speed. The test was applied via laptop with one of 178 examiners present. Multilevel analyses revealed that test taker’s age and examiner’s gender were significant predictors of the performance. This study showed – albeit small – examiner gender effects in a large representative German sample of participants with different ethnic and education background. Summarizing, the results of the four studies showed that the examiner influences test takers even in standardized testing. First, self- estimations and expectations towards the own achievement as well as actual performance seemed to be affected by the examiner gender. Second, results indicated that stereotypical perceptions led to different prospect of the assessment. In the thesis an integrating discussion of the four studies is presented where practical implication and claims concerning future research are described.
Im Berufs- wie Ausbildungskontext ist die Anwendung psychologischer Tests und Fragebögen weit verbreitet (Fernández-Ballesteros, 1999). Die konkreten Testsituationen können sehr unterschiedlich gestaltet sein, beispielsweise hinsichtlich der Verwendung von computerisierten oder Papier-Bleistift- Verfahren und bezogen auf Einzel- oder Gruppentestungen. In Hinblick auf die Vorgabe von standardisierten Tests können in den meisten Situationen zwei interagierende Seiten unterschieden werden: die Testperson, die eine bestimmte Leistung erbringen soll, und der Testleiter bzw. die Testleiterin, deren Aufgabe die Testvorgabe ist (z.B. Anastasi & Urbina, 1997). Forschungsergebnisse haben wiederholt gezeigt, dass die jeweiligen Testleiter einen bedeutsamen Einfluss auf das Verhalten der Testpersonen haben können (vgl. Rosenthal, 1976; Rosenthal, 1995; Sattler & Theye, 1967). Während einige dieser unerwünschten Effekte durch Standardisierung der Erhebung vermieden werden können (z.B. Sattler & Theye, 1967), erscheinen manche Quellen von Testleitereffekten unvermeidbar. Ein besonderes Risiko stellen visuelle Hinweisreize dar, die mit sozialen Rollen und Stereotypen assoziiert sind: beispielsweise Geschlecht oder Ethnizität. In der Forschung hat sich gezeigt, dass die ethnische Zugehörigkeit von Testleitern die Leistung von Testpersonen in standardisierten Leistungstests beeinflussen kann (Huang, 2009; Mishra, 1980). Es mangelt jedoch an aktuellen Forschungsergebnissen, die mögliche Effekte aufgrund des Geschlechts in solchen Situationen berücksichtigen. Das zentrale Ziel dieser Dissertation bestand in der Untersuchung des Einflusses vom Testleitergeschlecht auf die Leistung der Testperson in standardisierten Tests. Bei Leistungstestungen können Testpersonen üblicherweise nicht entscheiden, wer den Test vorgeben wird. Daher wissen wir nicht, ob Testpersonen aufgrund impliziter Erwartungen an bessere oder angenehmere Testbedingungen bestimmte Testleiter bevorzugen würden. Aktuell gibt es keine Untersuchung der Wahrnehmung und Präferenz von Testpersonen in Bezug auf Testleiter. Aus diesem Grund bestand ein zweites Ziel dieser Dissertation in der Untersuchung der Wahrnehmung und Beurteilung von Testleitern durch Testpersonen. Außerdem sollten die Präferenzen der Testpersonen untersucht werden, wenn diesen die Wahl eines Testleiters bzw. einer Testleiterin ermöglicht wird. Diese Dissertation besteht aus vier Studien. In den ersten beiden Studien wurden jeweils individuelle face-to-face Testungen an der Freien Universität Berlin durchgeführt. Es wurde ein verbaler Wissenstest, der aus zwei Teilen besteht, vorgegeben. Der erste Teil erfasst das selbsteingeschätzte verbale Wissen und der zweite Teil misst das tatsächliche verbale Wissen. Studierende nahmen freiwillig als Testpersonen teil (N = 93 in Studie 1; N = 114 in Studie 2), wobei Psychologiestudierende als Testpersonen ausgeschlossen wurden. Die Testleiter waren Psychologiestudierende, entweder aus dem Diplomstudiengang (N = 20, Studie 1) oder aus Diplom- und Bachelorstudiengang (N = 22, Studie 2). Die Ergebnisse der ersten Studie zeigten, dass männliche und weibliche Testpersonen ihr eigenes Wissen höher einschätzten, wenn sie von einer Testleiterin getestet wurden. In der zweiten Studie wurde zusätzlich die wahrgenommene Attraktivität der Testleiter erhoben. Es zeigte sich, dass eine 3-fach Interaktion zwischen Testpersonengeschlecht, Testleitergeschlecht und wahrgenommener Attraktivität der Testleiter einen signifikanten Effekt auf die Leistung im Wissenstest hatte: Testpersonen, die von einem attraktiven Testleiter bzw. Testleiterin desselben Geschlechts getestet wurden, erzielten schlechtere Ergebnisse als Testpersonen in gemischtgeschlechtlichen Testsituationen oder Testpersonen, die den Testleiter bzw. die Testleiterin nicht attraktiv fanden. In der dritten Studie wurde die Wahrnehmung von Testleitern untersucht. Zunächst wurden Testpersonen (N = 129) in einer Pilotstudie gebeten, sich für eine bevorstehende Testung entweder bei einem Testleiter oder einer Testleiterin anzumelden. Es entschieden sich signifikant mehr Testpersonen für die Testleiterin als für den Testleiter. Die Hauptstudie wurde als Onlinestudie durchgeführt. Studierende (N = 375) von verschiedenen Universitäten in Deutschland sahen vier kurze Videos von männlichen und weiblichen Testleitern aus zwei Altersgruppen, die eine standardisierte Testinstruktion gaben. Die Probanden waren aufgefordert die Testleiter hinsichtlich fachlicher Kompetenz und sozialer Kompetenz zu beurteilen und abschließend einen bevorzugten Testleiter bzw. Testleiterin zu wählen. Die Ergebnisse zeigten keinen Unterschied in der wahrgenommenen fachlichen Kompetenz zwischen männlichen und weiblichen Testleitern. Die soziale Kompetenz wurde bei Frauen signifikant höher eingeschätzt. Frauen wurde signifikant häufiger als bevorzugte Testleiter gewählt. In der vierten Studie wurden Ergebnisse aus dem Sozioökonomischen Panel Deutschland verwendet. Die Stichprobe bestand aus 2,863 Probanden, die an einem kognitiven Kurztest zur Erfassung der Wahrnehmungsgeschwindigkeit teilnahmen. Die Testung wurde am Laptop durchgeführt, wobei einer von 178 Testleitern währenddessen anwesend war. Mehrebenenanalysen zeigten, dass das Alter der Testpersonen und das Geschlecht der Testleiter einen signifikanten Einfluss auf die Leistung im Test hatten. In dieser Studie zeigten sich (wenn auch geringe) Testleitereffekte aufgrund des Geschlechts in einer großen, repräsentativen Stichprobe von deutschen Probanden mit unterschiedlichem ethnischen und Bildungshintergrund. Zusammenfassend zeigten die Ergebnisse der vier Studien, dass Testleiter die Testpersonen selbst bei standardisierten Tests beeinflussen. Erstens schienen sowohl Selbsteinschätzung und Erwartungen an die eigene Leistung, als auch die tatsächliche Leistung vom Testleitergeschlecht beeinflusst zu werden. Zweitens deuteten die Ergebnisse darauf hin, dass stereotypische Zuschreibungen zu verschiedenen Erwartungen an die Testsituation führten. In der Dissertation wird eine zusammenführende Diskussion der vier Studien präsentiert, in der praktische Implikationen und Forderungen an zukünftige Forschung beschrieben werden.