Das Problem der Messäquivalenz wird vor allem in der Entwicklungspsychologie und in der kulturvergleichenden Psychologie diskutiert (Eckensberger, 1973; Rokkan, 1968; van de Vijver & Poortinga, 1997). Es geht um die Frage, ob Instrumente, die für verschiedene Altersgruppen oder Kulturen zur Messung der gleichen psychologischen Variablen konstruiert wurden, diesen Zweck erfüllen. Eng verwandt mit dem Konzept der Messäquivalenz sind die Konzepte der Testfairness und der Kulturfairness (Anastasi, 1964; Cleary, 1968; Jensen, 1980). Als unfair gilt ein Test, wenn er in verschiedenen Gruppen oder Kulturen aufgrund diagnostisch irrelevanter Faktoren (z.B. Vertrautheit mit den Testaufgaben) unterschiedlich schwierig, trennscharf oder valide ist und diagnostische Entscheidungen auf der Basis des Tests (z.B. Hochschulzugang, Personalauslese) zur Benachteiligung bestimmter Gruppen führen (Wottawa & Amelang, 1980).
Als schwierig erweist sich die Klärung der Äquivalenzfrage vor allem dadurch, dass sie letztlich jenes Wissen erfordert, das erst durch die Verwendung von Instrumenten gewonnen werden kann, deren Äquivalenz in Frage steht. Beispielsweise setzt die Konstruktion altersäquivalenter Intelligenztests Wissen über die Intelligenzentwicklung voraus, das ohne die Verwendung entwicklungsangemessener Intelligenztests nicht gewonnen werden kann. Ebenso kann die Kulturfairness eines Messinstruments erst beurteilt werden, wenn der wahre Kulturunterschied bekannt ist. Dieser kann aber ohne ein Messinstrument mit gesicherter Kulturfairness empirisch nicht bestimmt werden. Schließlich kann die Frage, ob ein manifester Leistungsunterschied zwischen Gruppen ein Fairnessproblem darstellt, letztlich erst bei Kenntnis der wahren Leistungsfähigkeit beantwortet werden, deren Ermittlung aber faire Tests voraussetzt. Auch die Verfügbarkeit eines Validierungskriteriums (z.B. Berufserfolg als Kriterium von Eignungstests) führt nicht grundsätzlich weiter, denn das Kriterium kann selbst unfair sein (Darlington, 1971).
In der Forschungs- und Anwendungspraxis begegnet man verschiedenen Lösungsversuchen für dieses Dilemma. Diese leiden jedoch häufig an zwei eng miteinander verwandten Defiziten. Erstens wird nicht ausreichend reflektiert, auf der Basis welcher Kriterien die Gruppen zu definieren sind, für die sich die Äquivalenzfrage stellt. Zweitens wird die Äquivalenz häufig pauschal und nicht auf der Basis einer spezifischen theoretischen Argumentation in Frage oder Abrede gestellt.
Dieser Mangel offenbart sich regelmäßig in der üblichen Vorgehensweise bei der Überprüfung der strukturellen Invarianz im Rahmen der Faktorenanalyse, der multidimensionalen Skalierung und der Item-Response-Theorie. Subgruppen für den Invarianztest werden dort fast immer anhand leicht verfügbarer und routinemäßig miterhobener Merkmale wie Geschlecht, Alter, Beruf oder Familienstand (in den USA auch ethnische Gruppe) gebildet, ohne dass erkenntlich wäre, warum gerade diese Merkmale für den Invarianztest relevant sein könnten und wie strukturelle Invarianz psychologisch zu interpretieren wäre. Die Orientierung an leicht zugänglichen demographischen statt an theoretisch fundierten psychologischen Variablen ist auch für die Behandlung der Äquivalenzfrage im Kulturvergleich typisch. Kulturgrenzen werden gleichgesetzt mit Sprachgrenzen, Staatsgrenzen, politischen oder wirtschaftlichen Systemgrenzen, ohne dass theoretisch geklärt wäre, worin der psychologische Gehalt der Zugehörigkeit zu dieser Gruppierung liegen könnte und warum gerade bei diesen Gruppen ein Vergleichbarkeitsproblem bestehen sollte. Die Kehrseite dieses an Oberflächenmerkmalen orientierten Vorgehens bei der Bildung von Äquivalenz- oder Referenzgruppen besteht in der ungeprüften Voraussetzung von Äquivalenz innerhalb solcher Gruppen. Zweifel an dieser Voraussetzung bedürfen freilich ebenso guter theoretischer Argumente, wie sie für die Bildung von Äquivalenzgruppen zu fordern sind (Kohn, 1987; Möbus, 1978).
In einer eigenen Arbeit haben wir die Erkenntnismöglichkeiten einer theoriegeleiteten Untersuchung der Äquivalenzfrage am Beispiel der seelischen Gesundheit von Ost- und Westdeutschen ausgelotet. Anhand einer Stichprobe von 1268 Ostdeutschen und 925 Westdeutschen aus einer von der DFG geförderten Längsschnittuntersuchung Gerechtigkeit als innerdeutsches Problem wurden drei theoretisch gut begründbare Thesen zur Messäquivalenz und strukturellen Invarianz von Indikatoren der seelischen Gesundheit untersucht: (1) Belastungssensible Indikatoren der seelischen Gesundheit haben im Osten eine geringere Trennschärfe als im Westen, da im Osten aufgrund des gesellschaftlichen Umbruchs die interindividuelle Belastungsvarianz im Vergleich zur Varianz der Bewältigungskompetenz größer ist als im Westen. (2) Indikatoren der seelischen Gesundheit sind bei Ostdeutschen längsschnittlich weniger stabil als bei Westdeutschen, da die Lebensbedingungen und die daraus entstehenden Be- und Entlastungen im Osten stärkeren intraindividuellen Veränderungen unterliegen als im Westen. (3) Kognitiv-evaluative Komponenten des Wohlbefindens (Lebenszufriedenheit) korrelieren bei Ostdeutschen geringer mit emotionalen und psychosomatischen Aspekten des Wohlbefindens (seelische Gesundheit, Depressivität, Selbstwertgefühl) als bei Westdeutschen, jedoch nur in Lebensbereichen, die vom gesellschaftlichen Umbruch stark betroffen sind. Begründet wird diese Erwartung mit der verzögerten Wirkung evaluativer Komponenten auf emotionale und somatische Komponenten der seelischen Gesundheit. Alle drei Hypothesen konnten empirisch bestätigt werden. Die Arbeit ist publiziert (Schmitt, Maes & Seiler, 2001). Eine Vorfassung des publizierten Textes ist als PDF-Datei verfügbar.
Anastasi, A. (1964). Culture-fair testing. Educational Horizons, 43, 26-30.
Cleary, T.A. (1968). Testbias: Prediction of grades of negro and white students in integrated colleges. Journal of Educational Measurement, 5, 115-124.
Darlington, R.B. (1971).
Another look at "cultural fairness". Journal of Educational Measuremnt,
8, 71-82.
Eckensberger, L.H. (1973).
Methodological issues of cross-cultural research in developmental psychology.
In J.R. Nesselroade & H.W. Reese (Eds.), Life-span developmental
psychology: Methodological issues (pp. 43-64). New York: Academic Press.
Jensen, S.R. (1980). Bias
in mental testing. London: Methuen.
Kohn, M.L. (1987). Cross-national research as an analytic strategy. American Sociological Review, 52, 713-731.
Möbus, C. (1978). Zur Fairness psychologischer Intelligenztests: Ein unlösbares
Trilemma zwischen den Zielen von Gruppen, Individuen und Institutionen? Diagnostica, 24, 191-234.
Rokkan, S. (Ed.) (1968). Comparative research across cultures and nations. Paris: Mouton.
Schmitt, M., Maes, J. & Seiler, U. (2001). Zur Meßäquivalenz und strukturellen Invarianz von Indikatoren der seelischen Gesundheit bei Ost- und Westdeutschen. Zeitschrift für Differentielle und Diagnostische Psychologie, 21, 87-99.
van de Vijver, F.J.R. & Poortinga, Y.H. (1997). Towards an integrated analysis of bias in cross-cultural assessment. European Journal of Psychological Assessment, 13, 29-37.
Wottawa, H. & Amelang, M. (1980). Einige Probleme der "Testfairness" und ihre Implikationen für Hochschulzulassungsverfahren. Diagnostica, 26, 199-221.