In den Wissenschaften wird mittels der Forschung ständig neues Wissen erzeugt bzw. bereits vorhandenes Wissen korrigiert oder wieder verworfen. So ist im Laufe der Zeit die Anzahl der in einzelnen Wissensbereichen durchgeführten Studien beträchtlich gewachsen. Dabei sind deren Ergebnisse längst nicht immer übereinstimmend und stehen oft sogar im Widerspruch zueinander. Um sich in einem bestimmten Sachverhalt, zu welchem mehrere Studien durchgeführt wurden, einen angemessenen Überblick zu verschaffen, ist es also nicht ausreichend, nur die Ergebnisse einer Studie in Betracht zu ziehen. Vielmehr sollten die Ergebnisse verschiedener Studien miteinander verglichen und in Beziehung zueinander gesetzt werden. In sogenannten Meta-Evaluationen werden verschiedene Studien zu einer bestimmten Fragestellung nach bestimmten Kriterien mittels statistischer Methoden zusammengefaßt. Meta-Evaluationen tragen somit zu einer allgemeinen Urteilsbildung bzgl. eines bestimmten Sachverhaltes bei. Meta-Evaluationen finden auch dann Verwendung, wenn die Originaldaten der verschiedenen Studien nicht (komplett) vorliegen, so daß keine Reanalyse der Daten unter einer anderen Fragestellung und mit anderen Analysemethoden als denen der Autoren dieser Studien durchgeführt werden kann.
Um einer Verwirrung des Lesers vorzubeugen, sei an dieser Stelle vermerkt, daß im Folgenden die Begriffe Meta-Analyse und Meta-Evaluation synonym verwendet werden. In der Fachliteratur findet sich kein einheitlicher Begriff für das Konstrukt Meta-Evaluation.
INHALTSVERZEICHNIS
1. EINLEITUNG
1.1 SINN DER META-EVALUATION
1.2 GESCHICHTE DER META-EVALUATION
1.3 STRUKTURPARALLELITÄT VON PRIMÄR- UND META-EVALUATIONS-FORSCHUNG
2. VORGEHEN BEI DER META-EVALUATION
2.1 FORMULIERUNG DER FRAGESTELLUNG
2.2 DATENSAMMLUNG UND LITERATURRECHERCHE
2.2.1 Publication bias
2.2.2 Auswahl der Primärstudien
2.2.3 Qualitätsratings als Ausschlußkriterium
2.3 DATENBEWERTUNG UND KODIERUNG
2.4 ANALYSE UND INTERPRETATION
2.4.1 Aussagenüber Kausalzusammenhänge
2.4.2 Aussagenüber die Generalisierbarkeit
2.4.3 Probleme
2.4.4 Arten von Prädiktoren bzw. Moderatoren
2.5 PRÄSENTATION
3. KRITISCHE BEWERTUNG DER META-EVALUATION
1. Einleitung
1.1 Sinn der Meta-Evaluation
In den Wissenschaften wird mittels der Forschung ständig neues Wissen erzeugt bzw. bereits vorhandenes Wis- sen korrigiert oder wieder verworfen. So ist im Laufe der Zeit die Anzahl der in einzelnen Wissensbereichen durchgeführten Studien beträchtlich gewachsen. Dabei sind deren Ergebnisse längst nicht immer übereinstim- mend und stehen oft sogar im Widerspruch zueinander. Um sich in einem bestimmten Sachverhalt, zu welchem mehrere Studien durchgeführt wurden, einen angemessenen Überblick zu verschaffen, ist es also nicht ausrei- chend, nur die Ergebnisse einer Studie in Betracht zu ziehen. Vielmehr sollten die Ergebnisse verschiedener Stu- dien miteinander verglichen und in Beziehung zueinander gesetzt werden. In sogenannten Meta-Evaluationen werden verschiedene Studien zu einer bestimmten Fragestellung nach bestimmten Kriterien mittels statistischer Methoden zusammengefaßt. Meta-Evaluationen tragen somit zu einer allgemeinen Urteilsbildung bzgl. eines be- stimmten Sachverhaltes bei. Meta-Evaluationen finden auch dann Verwendung, wenn die Originaldaten der ver- schiedenen Studien nicht (komplett) vorliegen, so daß keine Reanalyse (vgl. Mullen (1989), S. 2 f.) der Daten unter einer anderen Fragestellung und mit anderen Analysemethoden als denen der Autoren dieser Studien durchgeführt werden kann.
Um einer Verwirrung des Lesers vorzubeugen, sei an dieser Stelle vermerkt, daß im folgenden die Begriffe Meta-Analyse und Meta-Evaluation synonym verwendet werden. In der Fachliteratur findet sich kein einheitlicher Begriff für das Konstrukt Meta-Evaluation.
1.2 Geschichte der Meta-Evaluation
1976 prägte (vgl. zum Folgenden Cooper & Hedges (1994), S. 3 ff.) Glass den Begriff Meta-Analyse durch die folgende Definition: ” die statistische Analyse einer großen Sammlung von Analyse-Ergebnissen einzelner Studien zum Zwecke der Integration dieser Ergebnisse ”
Verfahren des Schätzens von Effektstärken waren allerdings schon zu Beginn des letzten Jahrhunderts bekannt. Beispielsweise bildete Pearson (1904) den Durchschnitt aus Schätzungen fünf verschiedener Studien zum Zusammenhang zwischen der Impfung gegen Unterleibs-Typhus und der Sterblichkeitsrate. Dieser Durchschnitt stellt eine bessere Schätzung der Wirkung dieser Impfung dar als jede einzelne Schätzung. Pearson konnte dann diese Wirkung mit den Wirkungen anderer Impfstoffe gegen andere Krankheiten vergleichen. Die ersten Schriften über Methoden zur Kombination von Schätzungen bzw. Wahrscheinlichkeiten über mehrere Studien hinweg sind schon in den 30er Jahren zu finden. In den Sozialwissenschaften war jedoch vor den 70er Jahren die Benutzung quantitativer Techniken zur Integration von Ergebnissen aus verschiedenen Studien eher selten. Dies änderte sich in den späten 70er Jahren. Beispiele für die Nutzung dieser Techniken sind in der
- klinischen Psychologie die Studie von Smith & Glass (1977) über die Effektivität von Psychotherapie,
- in der Organisationspsychologie die Studie von Schmidt & Hunter (1977) über die Generalisierbarkeit der Validität von Einstellungstests,
- in der Sozialpsychologie die Studie von Rosenthal & Rubin (1978) über zwischenmenschliche Erwartungseffekte und in der
- Erziehungswissenschaft die Meta-Evaluation von Glass & Smith (1979) über den Zusammenhang zwischen Klassengr öß e und Leistung.
Anfang der 80er Jahre wurden ganze Bücher über meta-analytische Methoden veröffentlicht, und 1982 präsentierte Cooper ein 5-Stufen-Modell zur Herangehensweise an eine Meta-Analyse (siehe Gliederungspunkt 2).
Seit Mitte der 80er Jahre sind Tausende von Meta-Analysen durchgeführt geworden. Seitdem ist diese Methode in viele andere Bereiche wie z.B. die Sozialpolitik und die Medizin übernommen worden. Die Techniken wurden mit der Zeit immer ausgefeilter, so daß Forschungszusammenfassungen ein methodisch immer höheres Qualitätsniveau aufweisen. Die Entwicklung meta-analytischer Techniken ist jedoch noch lange nicht abgeschlossen. Für die Zukunft können noch strengere Richtlinien und Standards erwartet werden.
1.3 Strukturparallelität von Primär- und Meta-Evaluations-Forschung
Laut Drinkmann (1990, S. 11) handelt es sich bei der Meta-Evaluation um eine an den Kriterien empirischer Forschung orientierte Methode zur Integration von Ergebnissen empirischer Untersuchungen sowie zur Analyse der Variabilität dieser Ergebnisse. Daraus ergibt sich, daß sich die Meta-Evaluation ebenso wie die Primärforschung an den Kriterien empirischer Forschung orientiert.
Zu diesen Kriterien empirischer Forschung zählt (vgl. zum Folgenden Drinkmann (1990), S. 6 ff. und S. 21 ff.) erstens die systematische Vorgehensweise, die in der Meta-Evaluation daran sichtbar wird, daß sich ihr Vorgehen am 5-Stufen-Modell von Cooper oder ähnlichen Modellen orientiert. Dieses stufenweise Vorgehen macht es möglich, daß die Durchführung einer Meta-Evaluation in einzelne Arbeitsschritte zerlegt, diese delegiert und automatisiert werden können, so daß auch große Datensätze analysiert werden können. Damit ist zweitens das Kriterium der Ökonomie und Handhabbarkeit gegeben.
Die Meta-Evaluation ist drittens explizit in ihren Annahmen und dem Vorgehen und damit replizierbar. Dies führt viertens zu Objektivität, zu der auch die Reduktion bzw. Kontrolle von Beurteilungsfehlern und sonstigen Verzerrungen mit Hilfe statistischer Analysen gehört. Im Rahmen von statistischen Analysen können die Effektgrößen zufallskritisch abgesichert werden, so daß deren Größe, Relevanz und Sicherheit beurteilt werden kann.
Ebenso wie in der Primärforschung dient die Feststellung der methodischen Güte, die sich an denselben Kriterien orientiert wie in der Primärforschung, der Qualitätsbeurteilung, in diesem Fall einer Meta-Evaluation. Analog zur Varianzanalyse oder zur multiplen Regression in einer Primärstudie kann in der Meta-Analyse die Effektstärke als abhängige Variable und die jeweiligen Eigenarten der Studiendesigns als unabhängige Variable betrachtet werden.
Neben dieser Übereinstimmung beider Arten von Forschung in Vorgehen und Gütekriterien besteht ein Unterschied in der Untersuchungseinheit, die in der Primärforschung das jeweilige Versuchsobjekt und bei der Meta-Evaluation die Primärstudie ist.
Des weiteren können nicht dieselben statistischen Techniken angewandt werden, da viele statistische Tests der Primärforschung Varianzhomogenität und Homoscedastizität voraussetzen (vgl. Mullen (1989), S. 9 f.; Hedges (1984), S. 29 f.). Aufgrund der unterschiedlichen Stichprobengrößen der Studien, die in eine Meta-Evaluation eingehen, sind weder die Homogenität der Standardabweichungen und somit der Varianzen noch die Übereinstimmung der Fehlervarianzen (Homoscedastizität) der einzelnen Primärstudien gegeben. Daher gibt es extra für die Meta-Evaluation entwickelte statistische Tests.
2. Vorgehen bei der Meta-Evaluation
Um dem Leser eine Vorstellung zu vermitteln, wie die Vorgehensweise zur Durchführung einer Meta-Evaluation aussehen kann und worauf dabei zu achten ist, soll im folgenden das 5-Stufen-Modell von Cooper aus dem Jahre 1982 als Beispiel dienen.
2.1 Formulierung der Fragestellung
Zu Beginn sollte (vgl. zum Folgenden Mullen (1989), S. 15 ff.; Cooper & Hedges (1994), S. 3 ff.) der Meta- Evaluator seine Fragestellung hinsichtlich der Konstrukte, zwischen denen ein Zusammenhang postuliert wird, und deren möglicher Operationalisierungen sowie hinsicht-lich Meßzeitpunkt, Setting, Durchführung (Ist z.B. für die angemessene Untersuchung der Fragestellung einer Person oder einer Gruppe das Treatment zu verabreichen? Ist ein Meß-wiederholungsplan angemessen?) und Versuchspersonen klar definieren, um auf der Basis dieser Definition seine Entscheidungen bzgl. Einbeziehung bzw. Ausschluß von Primärstudi-en (vgl. 2.2) zu treffen. Ob bereits Studien zur Fragestellung vorliegen, bestimmt, ob eine Me-ta-Analyse durchgeführt wer- den kann.
Es stellt sich nun die Frage, wieviel Primärforschung bzgl. eines bestimmten Sachverhaltes bereits vorhanden sein sollte, damit es Sinn macht, eine Meta-Evaluation durchzuführen. Ab-gesehen davon, daß die Antwort von der Effektstärke abhängt und somit die Mindest-Stichprobengröße mittels Power-Kurven analog zum Vorgehen bei der Primärforschung berechnet werden kann (vgl. Bryant & Wortman (1984), S. 18 f.), spielt die Beschaffenheit und Kom-plexität der jeweiligen Fragestellung eine große Rolle. Ist diese sehr weit formuliert, so daß sie auf eine große Generalisierbarkeit abzielt, kann bzw. sollte die Stichprobe eine entspre-chende Variabilität an Operationalisierungen, Settings, Meßzeitpunkten und Versuchsperso-nen aufweisen. Diese Variabilität ist nur möglich bei einer größeren Stichprobe. Bei einer en-gen Fragestellung gilt entsprechend das Gegenteil, so daß dann mehr auf Übereinstimmung der Primärstudien mit der Fragestellung hinsichtlich Operationalisierung, Setting, Meßzeit-punkt und Versuchspersonen geachtet werden sollte.
Werden zu viele unabhängige und abhängige Variablen zusammengefaßt, die konzeptionell nichts miteinander zu tun haben (vgl. zum Folgenden Mullen (1989), S. 11 ff.), was sich vor allem in ihrer divergierenden Operationalisierung, ihrem unterschiedlichen theoretischen Ursprung und unterschiedlichen Vorgehen zu deren Erhebung zeigt, besteht die Gefahr, daß "Äpfel mit Birnen" verglichen werden. Eine Meta-Analyse hat ebenso wie eine Primärstudie konsistent zu sein und nur klar und genau operationalisierte Konstrukte von Primärstudien einzubeziehen. Daher ist die Fragestellung genau festzulegen. Nur so entsteht eine aufschlußreiche und vertretbare Meta-Analyse.
2.2 Datensammlung und Literaturrecherche
Die Phase der Datensammlung beinhaltet das Ausfindigmachen von Studien, die für die Fragestellung relevant sind. Dabei sollte eine erschöpfende Literaturrecherche durchgeführt werden unter Verwendung verschiedener Arten von Quellen, so daß am Ende sowohl veröffentlichte als auch unveröffentlichte Studien gefunden werden, um eine möglichst repräsentative Stichprobe zu erhalten und Verzerrungen aufgrund der Veröffentlichung (vgl. weiter unten zum Publication Bias) zu vermeiden (vgl. zum Folgenden Mullen (1989), S. 30 ff.). Beispiele für mögliche Studien- bzw. Literatur-Quellen sind elektronische Stichwörterkataloge wie PsycINFO, ERIC (die derzeit größte Datenbank im Bereich der Erziehungswissenschaften) und MEDLINE, die fast nur veröffentlichte Studien enthalten, sowie der elektronische Katalog der meist unveröffentlichten Doktorarbeiten ”Dissertation Abstracts International”. Um weitere unveröffentlichte Studien zu finden, kann auf das sogenannte ”Invisible College” zurückgegriffen werden, d.h. das informelle Netzwerk von Forschern, die auf dem Ge biet der Fragestellung forschen. Für die Kodierung genügend detaillierte statistische Informationen sind eher in Dissertationen und Diplomarbeiten als in Zeitschriftenartikeln und Büchern zu finden (vgl. Bryant & Wortman (1984), S. 16).
Schwierigkeiten bei der Literatursuche ergeben sich, wenn der interessierende Forschungsge- genstand noch neu ist. Dann ist dieser nicht unter einem eigenen Stichwort in den elektroni- schen Stichwörterkatalogen zu finden aufgrund der noch zu geringen Menge an dazu vorhan- denen Untersuchungen. Ist das Forschungsgebiet interdisziplinär, sind die dazu aufgeführten Untersuchungen nicht in einem einzigen Stichwörterkatalog, sondern in mehreren zu finden. Es kann auch sein, daß Literatur, z.B. Konferenzberichte, zu einem noch neuen Forschungsge- biet von niemandem zitiert wird und auch nicht in einen Stichwörterkatalog aufgenommen ist. Dann muß die entsprechende Literatur von Hand durchgesehen werden (Browsing).
Ein alternatives Vorgehen bei der Literatursuche stellt die Durchsicht der Bibliographien von Studien dar. Die so gefundenen Studien können dann wieder auf Quellen durchgesehen wer- den. Dieser Ansatz kann zur frühesten bekannten Untersuchung des interessierenden Phäno- mens führen und wird daher als Ancestry Approach bezeichnet. Es können auch Indexkata- loge (z.B. Social Sciences Citation Index) verwendet werden, in denen die Studien aufgelistet sind, die die Ausgangsstudie zitieren. Dieser Ansatz (Descendancy Approach) kann zur letztbekannten Untersuchung des interessierenden Phänomens führen. Viele dieser durch den Ancestry und den Descendancy Approach gefundenen Quellen sind jedoch irrelevant, da sie nur dazu dienen, einen breiteren theoretischen Hintergrund für die betreffende Arbeit, in der sie zitiert werden, zu etablieren und nicht auf weitere Untersuchungen hinweisen.
Bei der Auswahl der Primärstudien ist darauf zu achten, daß jede Studie nur einmal in die Stichprobe aufgenommen wird; denn manche Primärstudien werden mehrmals publiziert.
Ebenso wie auf der Ebene der Primärforschung hat die Art der Stichproben-Zusammenstellung einen Einfluß auf die Ergebnisse der Meta-Analyse. Der Ort der Veröffentlichung einer Studie ist ein Anhaltspunkt zur Einschätzung deren methodischer Qualität, da es Zeitschriften mit sehr strengen und solche mit weniger strengen Richtlinien der Veröffentlichung und einer entsprechend niedrigeren bzw. höheren Akzeptanzrate gibt. Auch wenn eine auf Validitätsaspekte achtende sorgfältige Auswahl an Primärstudien getroffen wird, kann es sein, daß die gezogene Stichprobe sehr groß ist. Dann kann daraus eine repräsentative Zufallsstichprobe gezogen werden oder auch eine sehr umfassende Meta-Analyse durchgeführt werden. Es kann auch die ggf. weite Fragestellung in mehrere enge Fragestellungen unterteilt werden. Sodann können mehrere Gruppen von Studien gebildet werden, die sich auf jeweils eine enge Fragestellung beziehen.
Bei der Auswahl von Studien ist eine Verzerrung aufgrund der Voreingenommenheit der je-weiligen Forscher und Herausgeber zu berücksichtigen (vgl. zum Folgenden Mullen (1989), S. 35 ff.):
2.2.1 Publication bias
Meta-Evaluationen weisen eine Verzerrung zugunsten signifikanter Ergebnisse auf: Mit dem File drawer- Problem wird die Möglichkeit bezeichnet, daß die Zeitschriften mit den 5% von Studien gefüllt sind, die zwar signifikant sind, aber einen Alpha-Fehler aufweisen, während in den Schubladen die 95% Studien zurückbleiben, die nicht signifikante Ergebnisse aufweisen. Dieses Problem ist eine Folge des Publication Bias, der sich darin ausdrückt, daß vor allem signifikante Ergebnisse veröffentlicht werden. Somit schränkt dieser Bias die externe Validität ein, da er zu einer Konfundierung von Selektions- und Treatment-Faktoren führt. Um die Verzerrung der Daten aufgrund dieses Fehlers möglichst gering zu halten, sind zwei Vorgehensweisen möglich:
1) Fail-Safe-Zahl
Zur Bestimmung der Fail-Safe-Zahl wird die Frage gestellt, wie viele unveröffentlichte Stu- dien mit Null- oder nicht signifikanten Ergebnissen zu den Studien der Stichprobe hinzukom- men müßten, um die Stichproben-Wahrscheinlichkeit eines a-Fehlers auf mindestens 0,05 zu erhöhen und die Ergebnisse damit nicht signifikant zu machen. Je höher die Fail-Safe-Zahl, desto geringer ist die Verzerrung der Daten aufgrund des Publication Bias. Rosenthal schlägt als Grenze, ab der davon ausgegangen werden kann, daß kein Publication Bias vor-liegt, 5k+10 vor, wobei k die Stichprobengröße der Meta-Analyse darstellt. Er begründet die-se Grenze damit, daß es unwahrscheinlich ist, daß es fünfmal so viele in Schubladen versteckte Studien gibt wie die in die Meta-Analyse einbezogenen. Die "+10" stellt dabei eine Art Si- cherheitszuschlag dar. Zu beachten ist, daß die Fail-Safe-Zahl auf den Signifikanzniveaus der ausgesuchten Studien basiert. Wurde eine nicht repräsentative Stichprobe von Primärstudien gezogen, ist die Aussagekraft der Fail-Safe-Zahl somit eingeschränkt. Von Orwin (1983) gibt es ein analoges Vorgehen, das eine Fail-Safe-Zahl für Effektgrößen liefert.
2) Öffnen der Schubladen
Dies ist die beste (jedoch selten völlig durchführbare) Lösung des File drawer-Problems, weil dieses Problem dann erst gar nicht entsteht. Dabei werden auf dem Gebiet der Fragestellung aktive Forscher kontaktiert und um ihre unveröffentlichten Forschungsarbeiten ersucht. Wird die Stichprobe mit Hilfe verschiedener Arten von Quellen zusammengestellt, verringert sich die Gefahr des Vorliegens des File drawer-Problems ebenfalls von vornherein.
2.2.2 Auswahl der Primärstudien
Die Auswahl der Primärstudien sollte sich an den Kriterien der Relevanz und der Akzeptanz (vgl. Wortman (1994), S. 100 ff; Bryant & Wortman (1984)) orientieren, die z.B. dem Relia-bilitäts- und Validitätsverzeichnis von Cook & Campbell von 1979 entnommen werden kön-nen. Mit diesem Verzeichnis kann auch die Qualität der in die Meta-Evaluation eingehenden Primärstudien sowie der Meta-Analyse selbst beurteilt werden (vgl. 2.3). Relevant für die Meta-Analyse sind Studien mit hoher Konstruktvalidität und hoher externer Validität. Bei hoher statistischer Schlußfolgerungsvalidität und hoher interner Validität sind sie auch akzeptabel.
Primärstudien sollten dann hinsichtlich der Konstruktvalidität nicht berücksichtigt werden, wenn andere Kon- strukte gemessen werden als die in der meta-analytischen Fragestellung vor-gegebenen, etwa, wenn die Experi- mental- sowie Kontroll- bzw. Vergleichsgruppen anders als in der Fragestellung definiert sind. Studien mit nicht zulässiger Operationalisierung der in der Fragestellung vorkommenden Konstrukte sollten ebenso ausgeschlos- sen werden. Welche Operationalisierungen zulässig sind, ergibt sich aus der Theorie, auf deren Basis die Meta- Evaluation durchgeführt wird oder auch aufgrund von Erfahrungen bzgl. der höheren Kon-struktvalidität be- stimmter Operationalisierungen. Werden verschiedene Operationalisierungs-arten in einer Meta-Analyse zuge- lassen (vgl. Mullen (1989), S. 21 ff.), besteht die Chance, daß sich die Meßfehler insgesamt ausgleichen. Es kann jedoch aus das Gegenteil der Fall sein, so daß das interessierende Phänomen verdeckt wird. Dann sollte eine Subgruppenanalyse der-gestalt durchgeführt werden, daß Studien mit derselben Art der Operationalisierung der Kon-strukte und denselben Merkmalen der Stichprobe und der Durchführung jeweils zu homoge-nen Gruppen zusammengestellt werden. Daher sind die potentiell die Ergebnisse beeinflus-senden Merkmale von Studien sorgfältig zu kodieren (vgl. 2.3), um gegebenenfalls Subgrup-pen für Subgruppenanalysen bilden zu können.
Hinsichtlich der externen Validität hängt es von der Weite der Fragestellung ab, ob Primärstudien in die Stichprobe aufgenommen werden sollten, wenn sie in Merkmalen des Settings, der Versuchspersonen oder bzgl. des Meßzeitpunktes von denen in der meta-analytischen Fragestellung abweichen (vgl. 2.1).
Hinsichtlich der statistischen Schlußfolgerungsvalidität sind Primärstudien auszuschließen, wenn die für Ko- dierung und Auswertung notwendigen deskriptiven Statistiken wie Mittelwerte, Standardabweichungen oder Stichprobengrößen fehlen, bei unangemessener Aggregation von Merkmalsstufen der unabhängigen oder der ab- hängigen Variable(n), bei unangemessenen Vergleichsgruppen (z.B. nationale Normen statt einer Kontrollgrup- pe) oder wenn andere als in der meta-analytischen Fragestellung angegebene statistische Vergleiche durchge- führt wur-den.
Es können nur Primärstudien integriert werden, deren Maße einen Freiheitsgrad aufweisen (vgl. Mullen (1989), S. 26 ff.), da dann Aussagen nicht nur über das Bestehen eines Effekts, sondern auch über dessen Richtung ge- macht werden können. Geeignet für die Integration sind also nur F- und Chi-Quadrat-Tests mit einem Freiheits- grad. Identische F- und Chi-Quadrat-Werte mit mehr als einem Freiheitsgrad können nämlich verschiedene F- und Chi-Quadrat-Werte mit einem Freiheitsgrad darstellen, sind also uneindeutig, da verschiedene Ergebnis- muster für dasselbe Ergebnis verantwortlich sein können. Problemlos für die Integration sind Produkt-Moment- Korrelations-Koeffizienten, t-Tests, Z-Werte (abgeleitet von nicht-parametrischen Tests) und Signifikanzni- veaus.
Selbst wenn die gewünschten statistischen Vergleiche in den Primärstudien erfolgten, werden diese Vergleiche entkräftet durch die unangemessene Verwendung statistischer Tests. Solche Studien müssen dann ausgeschlos- sen werden, da diese Fehler nicht vom Meta-Evaluator kor-rigiert werden können, es sei denn, es besteht ein Zu- gang zu den Rohdaten. Eine zu niedrige Teststärke aufgrund zu kleiner Stichproben spielt in der Meta- Evaluation jedoch keine Rolle, wenn nur Mittelwerte, Standardabweichungen und Ergebnisse von Inferenztests und nicht die Signifikanzniveaus der Primärstudien verwendet werden. Studien sind auch dann auszu-schließen, wenn für die Fragestellung irrelevante Merkmale der Stichprobe der Primärstudie zwischen Experimental- und Kontrollgruppe nicht konstant gehalten wurden, da diese sonst die Effektgröße der Studie beeinflussen können.
Meßfehler in Primärstudien aufgrund unreliabler Maße sowie Stichprobenfehler lassen sich vom Meta-Evaluator durch Einzelkorrektur (vor Aggregation der ausgewählten Primärstudi-en) beheben. Erstere lassen sich beheben, wenn in der Primärstudie die Reliabilität der unab-hängigen und der abhängigen Variablen angegeben ist; ist keine Reliabilität angegeben, kann in der Arbeits- und Organisationspsychologie auf die interaktive Formel von Hunter, Schmidt & Jackson zurückgegriffen werden, mit deren Hilfe sich die korrigierten Korrelationskoeffi- zienten schätzen lassen.
Bestimmte Mindestanforderungen an die interne Validität sind an Primärstudien zu stellen. Daher sollten nicht randomisierte Studien und solche ohne Kontrollgruppen aus der Meta-Evaluation ausgeschlossen werden, da sie zu einer Überschätzung der Effektgröße um das Sechsfache führen können, wie Wortman & Bryant (vgl. Wort- man (1994), S. 100 ff.) festge-stellt haben. Es kann aber vorkommen, daß zu einer Fragestellung kaum randomi- sierte Studi-en vorliegen und auf die Untersuchung dieser Fragestellung aus sozialpolitischen Gründen nicht ver- zichtet werden kann. Oder der Repräsentativität der Stichprobe der Meta-Analyse wird großes Gewicht beige- messen, weshalb nicht zu viele Studien aufgrund ihrer mangelhaf-ten internen Validität ausgeschlossen werden sollten, da sonst die externe Validität der Meta-Analyse eingeschränkt wird. Ein Großteil der aufgrund von Qualitätsmängeln entstehenden Verzerrungen läßt sich in der Phase der Analyse (vgl. 2.4) beseitigen oder zu- mindest in seinen Auswirkungen auf die Effektgröße der gesamten Stichprobe quantifizieren, so daß die Ef- fektgröße um die Verzerrungen bereinigt werden kann.
2.2.3 Qualitätsratings als Ausschlußkriterium
Erfüllt eine Primärstudie die vorhergenannten Qualitätskriterien nicht, sollte sie nach Meinung einiger Autoren (vgl. Hunter & Schmidt (1990)) nicht von vorneherein aus der Meta-Analyse ausgeschlossen werden. Die Autoren begründen diese Ansicht damit, daß die Qualitätskriterien auf theoretischen Vorannahmen basieren und diese somit von dem jeweiligen Rater abhängen. Sie schlagen vielmehr vor, die vermeintlichen Qualitätsunterschiede als mögliche Moderatorvariablen mit in die Analyse aufzunehmen und daraufhin zu testen, ob sie tatsächlich eine Auswirkung auf die Effektgröße haben. In solch einem Fall könnte man sich auf das Ergebnis aus der Analyse der qualitativ “guten” Studien beschränken.
2.3 Datenbewertung und Kodierung
Ist die Datensammlung einmal abgeschlossen, muß der Evaluator aus jeder Studie die für sei- ne Fragestellung relevante Information extrahieren und kodieren. Dies kann ein sehr schwieri- ges Unterfangen sein, da die in eine Meta-Evaluation eingehenden Primärstudien untereinan- der oft erhebliche Unterschiede aufweisen. Somit stellt sich die Frage, wie und ob solche Ver- schiedenheiten in der Meta-Evaluation abgebildet werden sollen. Unterschiede zwischen den Primärstudien bestehen vor allem hinsichtlich der Stichprobengröße und der methodischen Qualität, so daß die Studien in der Phase der Analyse (vgl. 2.4) danach gewichtet werden soll- ten. In dieser Phase können die Studien auch zu Subgruppen zusammengestellt werden in Abhängigkeit von deren Qualitätsniveau. Dazu ist die Studienqualität zu kodieren.
Die Qualität (vgl. Mullen, 1989, S. 62 f.) der Primärstudien, die v.a. von deren Design ab- hängt, wird durch mehrere Beurteiler geratet, so daß dann zur Sicherung der Objektivität der Kodierung die Interrater-Reliabilität bestimmt werden kann. Zur Sicherung der Reliabilität und Validität der Kodierung der Studienqualität und sonstiger Studienmerkmale wie Veröf- fentlichungsjahr, Ort der Veröffentlichung und Geschlecht der Autoren, die zusätzlich zur un- abhängigen Variable einen Einfluß auf die Effektgröße haben können, kann auf Reliabilitäts- und Validitätsverzeichnisse zurückgegriffen werden wie z.B. das von Cook & Campbell von 1979. Mit Hilfe deren Aufstellung von 33 Arten von Validitätsbedrohungen, die den vier un- ter 2.2.2 genannten Validitätsarten zugeordnet sind, kann die Kodierung vorgenommen wer- den. Dabei wird für jede Studie das Vorliegen bzw. Nicht-Vorliegen der Validitätsbedrohun- gen kodiert. Cook & Campbell geben auch einen Qualitätsindex für die gesamte Meta-Analy- se an, wobei sie davon eine Korrekturgröße für die bei der Kodierung gefundenen Validitäts- bedrohungen abziehen. Von Chalmers & al. (1981) gibt es auch ein Reliabilitäts- und Validi- tätsverzeichnis, das zusätzlich zu den meisten von Cook & Campbell genannten Validitätsbe- drohungen noch verschiedene Arten des Blindings (z.B. der Versuchspersonen oder des Ver- suchsleiters) anführt, die die Konstruktvalidität einer Studie heben. Der von ihm angegebene globale Qualitätsindex wird jedoch nicht durch eine Korrekturgröße korrigiert und weist eine mangelnde Reliabilität auf.
Richtlinien für die Entscheidung, welche Studienmerkmale kodiert werden sollten, können oftmals der betreffenden Literatur selbst entnommen werden; andererseits ist natürlich die Einsicht des Evaluators in den Sachverhalt, um den es in seiner Meta-Analyse gehen soll, maßgeblich für diese Entscheidung. Die Kodierung der Studienmerkmale ist die Vorausset- zung für die Untersuchung ihres Einflusses auf die Effektgröße in Subgruppenana-lysen in der Analysephase (vgl. 2.4).
Im folgenden (vgl. Wortman (1994), S. 107) ist ein Teil eines möglichen Kodierschemas zu sehen.
Abbildung in dieser Leseprobe nicht enthalten
Ein Problem der Kodierphase stellen nicht berichtete Daten von Primärstudien dar (vgl. Mullen (1989), S. 48 f.). Können Daten nicht rekonstruiert werden und auch nicht durch Nachfrage bei den Autoren der Primärstudien beschafft werden, können konservative Schätzungen der Studienergebnisse gemacht werden. Fehlt z.B. in einer Studie die Angabe des Signifikanzniveaus für einen nicht signifikanten Effekt, kann für das Signifikanzniveau ein Wert von 0,5 und entsprechend ein z-Wert von 0 angesetzt werden. Für einen in einer Studie als signifikant bezeichneten Effekt kann ein Signifikanzniveau von 0,05 und entsprechend ein z-Wert von 1,645 angesetzt wer- den.
2.4 Analyse und Interpretation
Wurden einige Jahrzehnte zuvor noch intuitive Mechanismen herangezogen, um zu Ergebnissen von Studienzusammenfassungen zu gelangen, so genügen heute solche Vorgehensweisen nicht mehr. Wie bereits erwähnt, werden von einem Forscher, der eine Meta-Evaluation durchführt und zu bestimmten Ergebnissen gelangt, explizit einsehbare statistische Tests gefordert, welche seine Ergebnisse absichern.
Zunächst (vgl. Mullen (1989), S. 7 ff.) sind die statistischen Ergebnisse der Primärstudien in ein gemeinsames Maß umzurechen, dann aufgrund von Meß- oder Stichprobenfehlern zu kor- rigieren. Sodann sind diese Effektmaße zu einem Maß der zentralen Tendenz zu kombinieren. Schließlich ist zur Aufklärung der Varianz nach Moderatoren zu suchen. Bei jedem dieser Schritte sind bestimmte Dinge zu beachten, die im folgenden ausgeführt werden. Zunächst er- folgen Anmerkungen zur Einschränkung der Aussagekraft der Analyseergebnisse durch Män- gel der Primärstudien (vgl. zum Folgenden Hall, Tickle-Degnen, Rosenthal & Mosteller (1994), S. 17 ff.).
2.4.1 Aussagen über Kausalzusammenhänge
In einer Meta-Evaluation sind Aussagen über Kausalzusammenhänge nur dann möglich, wenn die einbezogenen Primärstudien eine hohe interne Validität aufweisen, ansonsten muß man sich mit Aussagen bezüglich der Kovariation von Variablen begnügen. Ein Forscher, der eine Primärstudie durchführt, hat durch das von ihm gewählte Studien-Design enormen Einfluß auf die Güte der internen Validität. Da in die Meta-Evaluation bereits durchgeführte Studien eingehen, hat der Evaluator diese Möglichkeiten nicht.
Will man andererseits die Meta-Evaluation benutzen, um bestimmte aufgrund statistischer Tests zusammengestellte homogene Subgruppen (vgl. 2.4.4) von Studien miteinander zu ver-gleichen, so kann man grundsätzlich keine vertrauensvollen Aussagen über Kausalzusammen-hänge machen. Selbst wenn man versucht, den Einfluß verschiedener Dritt-Variablen zu kon-trollieren, kann man dennoch keine randomisierte Zuweisung der verschiedenen Studien zu den einzelnen Subgruppen vornehmen.
Abschließend bleibt zu sagen, daß die Grenzen bzgl. Aussagen über Kausalzusammenhänge in der MetaEvaluation von den Primärstudien vorgegeben werden. Meta-Evaluation kann nicht als Ersatz für eine methodisch gute Primärstudie dienen, um Kausalzusammenhänge aufzudecken. Sie kann allerdings richtungsweisend wirken für die Durchführung neuer Primärstudien.
2.4.2 Aussagen über die Generalisierbarkeit
Die Bestimmung der externen Validität ist ein wesentlicher Aspekt bei der Durchführung einer Meta-Evaluation. Wie bereits erwähnt, muß der Meta-Evaluator schon zu Beginn festlegen, wie weit die Fragestellung gefaßt werden soll. Auf der zweiten Stufe im Cooperschen 5-Stufen-Modell muß entschieden werden, welche Studien relevant sind, was u.a. von der Weite der Fragestellung abhängt. In der Stufe der Analyse und Interpretation muß sich der Evaluator dann erneut mit dem Problem der Generalisierbarkeit beschäftigen. Er muß den Einfluß von Moderatorvariablen wie Studien-Populationen, situationale Bedingungen und methodische Vorgehensweisen auf die Studienergebnisse untersuchen, um die Validität von Generalisierungen empirisch zu prüfen.
Ein Teilaspekt der externen Validität ist die Konstruktvalidität. Eine Meta-Evaluation kann die Konstruktvalidität besser absichern, als eine einzelne Primärstudie je dazu in der Lage wäre. Durch die multiplen Operationalisierungen und die damit größtenteils einhergehende Kompensation der Meßfehler, kann ein Konstrukt eher in seiner Reinheit erfaßt werden als in einer Primärstudie. In dieser Hinsicht wurde die Meta- Evaluation kritisiert, ”Äpfel und Birnen” zu vermischen. Diese Kritik ist oftmals unberechtigt, da zwar verschiedene Operationalisierungen benutzt werden, aber mit ihnen das gleiche Konstrukt erfaßt wird. Eine Übereinstimmung der Ergebnisse aus Studien mit verschiedenen methodischen Vorgehensweisen spricht für die Validität des Effektes. Andererseits sollte eine übertriebene Vielfalt von Operationalisierungen vermieden werden.
Zusammenfassend kann man sagen, daß die Meta-Evaluation ein ideales Instrument darstellt, um Fragen bezüglich der Generalisierbarkeit eines Effektes zu beantworten. Aufgrund praktischer Begrenzungen (z.B. Auswahl von Versuchspersonen, situationale Bedingungen, Operationalisierungen, Zeit- und Geldmangel) hat die Primärstudie erheblich geringere Generalisierungsmöglichkeiten als die Meta-Studie.
2.4.3 Probleme
1) Verschiedene Maße
Die Ergebnisse der Primärstudien liegen meist in verschiedenen Maßen vor (vgl. Mullen (1989), S. 13, S. 42 ff.), z.B. als F-, t- oder Chi-Quadrat-Werte. Da diese Werte von der jewei-ligen Stichprobengröße abhängig sind, eignet sich keiner von ihnen als gemeinsames Effekt-stärken-Maß. Diese verschiedenen Werte können jedoch in ein gemeinsames Maß umgerech-net werden (vgl. zum Folgenden Rosenthal (1994), S. 236 ff.). Dabei sind einerseits gemein-same Maße der Signifikanz wie z-Werte und Signifikanzniveaus sowie andererseits gemein- same Maße, die die Größe von Effekten angeben, zu nennen. Bei letzteren lassen sich r- und d-Maße unterscheiden, wobei sich beide ineinander umrechnen lassen. -Maße basieren auf der Produkt-Moment- Korrelation, während d-Maße vor allem auf Mittelwertsunterschieden zwischen zwei Gruppen basieren. r-Maße sind generell nützlicher als d-Maße. Sie haben den Vorteil, daß sie einen linearen Zusammenhang zwischen abhängiger und unabhängiger Variable darstellen und dabei keine Wertebereichsbeschränkung der Variablen vornehmen müssen im Gegensatz zu den d-Maßen, bei denen nur zwei Ausprägungen der unabhängigen Variable in Form von zwei Gruppen berücksichtigt werden. Bei den d-Maßen ist man somit auf die dis -krete Darstellung der unabhängigen Variable beschränkt. Desweiteren sind die r-Maße inva-riant gegenüber Maßstabsveränderungen der zugrundeliegenden Variablen (vgl. dazu und zum Folgenden Fricke & Treinies (1985), S. 97 f.).
Zur Integration der r-Maße der einzelnen Studien kann ein mittlerer Korrelationskoeffizient berechnet werden, der mit den Stichprobengrößen der Primärstudien gewichtet wird. Eine an-dere Möglichkeit der Integration der r- Maße besteht in der Verwendung von Fishers Z Trans-formation, die jedoch mehrere Nachteile aufweist, u.a. die Tendenz zur Überschätzung der Korrelation.
2) Fehlende Daten
Manche fehlenden Daten (vgl. Mullen (1989), S. 48 f.) können rekonstruiert werden, z.B. wenn in einer Studie nur gesagt wird, daß es Geschlechtsunterschiede in der Auswirkung eines Trainingsprogramms auf das Führungsverhalten gibt, ohne deren Größe und Signifikanz anzugeben. Werden die Mittelwerte und Zellgrößen für jede Versuchsbedingung sowie die Ergebnisse eines der F-Tests (z.B. der Haupteffekt des Trainings oder der Interaktionseffekt zwischen Training und Geschlecht) in der Primärstudie berichtet, kann die ursprüngliche, vollständige ANOVA-Tabelle und somit der Haupteffekt des Geschlechts sowie die IntraGruppenvarianz rekonstruiert werden. Können wichtige Daten nicht rekonstruiert werden, sollte die Studie am besten aus der Meta-Analyse ausgeschlossen werden.
3) Mehr als ein Ergebnis pro Analyseeinheit
Dieses Problem (vgl. Mullen (1989), S. 50 ff.), das auch in der Primärforschung besteht, zeigt sich in mehreren Ausprägungen:
Werden in einer Studie mehrere Operationalisierungsmethoden für die untersuchten Kon- strukte verwendet, ist die für die Fragestellung relevante Operationalisierungsmethode auszu- wählen. Es können auch Subgruppenanalysen durchgeführt werden, wobei die Operationali- sierungsmethode das Kriterium der Subgruppenbildung ist. Schließlich kann auch eine einzi- ge Effektgröße und ein Signifikanzniveau pro Studie berechnet werden, indem die Ergebnisse einer Studie (evtl. gewichtet nach theoretischer Relevanz der Operationalisierungsmethode) zu einem Ergebnis integriert werden. Sind die Daten der Primärstudie zugänglich, kann eine "Supervariable" gebildet werden, indem pro Versuchsperson ein Durchschnittswert aus allen (evtl. nach theoretischer Relevanz der Operationalisierungsmethode gewichteten) standardisierten Werten in den abhängigen Variablen gebildet wird und dann der gewünschte statistische Test, dessen Ergebnis dann mit den Ergebnissen der anderen Primärstudien zu integrieren ist, mit diesen Supervariablen durchgeführt wird.
Analog kann vorgegangen werden, wenn in einer Primärstudie mehrere abhängige Variablen vorliegen bzw. eine abhängige Variable mehrmals erhoben wurde: Da verschiedene abhängi- ge Variablen einer Primärstudie als unterschiedliche Aspekte desselben Konstrukts angesehen werden können, sind die einzelnen Maße ebenso wie im Falle des Vorliegens mehrmals erho- bener abhängiger Variablen ziemlich homogen und somit durch eine zusammenfassende Grö- ße repräsentierbar. Eine solche integrierende Größe läßt sich mittels einer konfirmatorischen Faktorenanalyse, Regression oder stichprobengewichteter Formeln zur Korrelation der einzel- nen Effektgrößen vornehmen (vgl. Hunter & Schmidt (1990), S. 466; Gleser & Olkin (1994), S. 352). Solche eine Zusammenfassung ist angebracht, wenn nur wenige Primärstudien meh- rere Meßzeitpunkte bzw. abhängige Variablen berichten, so daß sich eine Subgruppenanalyse nicht lohnt.
Stammen mehrere Primärstudien von denselben Autoren, besteht meist eine Übereinstimmung in Stichprobenwahl, experimentellen Paradigmen, Maßen der abhängigen Variable(n) oder in anderen Aspekten, die spezifisch für die betreffende Forschergruppe sind. Diese Übereinstimmungen können zu ähnlichen Ergebnissen führen. Darum sollte eine Subgruppenanalyse durchgeführt werden, wobei sich die Gruppenbildung an der Autorengruppe orientiert. So kann geprüft werden, ob diese Quelle der Abhängigkeit von Studien vorliegt.
4) Unterschiedliche Analysestrategien
Wie ist vorzugehen, wenn (vgl. Mullen (1989), S. 53 ff.) in einer Primärstudie sowohl die (kontinuierliche) unabhängige als auch die abhängige Variable jeweils dichotomisiert oder auch in mehr Kategorien unterteilt wird, wenn diese Kategorisierung nur in der unabhängigen oder der abhängigen Variable vorgenommen wird oder wenn keine Kategorisierung erfolgt? Dieses unterschiedliche Vorgehen hat Auswirkungen auf die Höhe der Korrelationskoeffizienten, der Signifikanzniveaus und somit auf die Effektstärken. Es kann nun die theoretisch am aussagekräftigste Analysestrategie ausgewählt werden oder eine Subgruppenanalyse nach analytischen Strategien durchgeführt werden.
5) Fehlende Varianzhomogenität
Wie bereits unter Gliederungspunkt 1.3 erwähnt wurde, haben die in eine Meta-Analyse eingehenden Primärstudien meist unterschiedliche Stichprobengrößen. Deshalb müssen in der Meta-Analyse besondere statistische Verfahren angewandt werden, in denen die verschiedenen Stichprobengrößen ausdrücklich berücksichtigt werden. Ein Beispiel für ein solches statistisches Verfahren ist der Heterogenitätstest, auf den in Gliederungspunkt 2.4.4 näher eingegangen wird.
Grundsätzlich sollten Primärstudien mit großem Stichprobenumfang stärker gewichtet werden, da sie eine geringere Fehlervarianz aufweisen als Primärstudien mit geringem Stichprobenumfang.
6) Korrekturen aufgrund mangelnder methodischer Güte der Primärstudien
Die Verzerrungen in den Effektgrößen der einzelnen Studien lassen sich (vgl. Bryant & Wortman (1984), S. 19 f.) vor deren Integration zu einer Effektgröße verringern durch die Verwendung der gepoolten IntragruppenVarianz als Nenner der Effektgröße, durch die Gewichtung der Effektgröße nach Stichprobengröße, die Korrektur der Effektgröße für Meß- und Stichprobenfehler, fehlende Unabhängigkeit der Analyseeinheiten der MetaAnalyse (vgl. Punkt 3) sowie Alterseffekte, wenn diese irrelevant für die Fragestellung sind und somit unerwünschte Varianz in den Effektgrößen produzieren.
Die durch Nicht-Randomisierung (vgl. zum Folgenden Bryant & Wortman (1984), S. 14 f.) in den Primärstudien entstandenen Verzerrungen können im nachhinein aus der über alle nicht randomisierten Studien hinweg gebil- deten Effektgröße entfernt werden, indem die über alle randomisierten Studien hinweg gebildete Effektgröße als Vergleichsmaßstab verwendet wird, um die Auswirkungen der Nicht-Randomisierung auf die Effektgröße zu bestimmen. Viele Qualitätsmängel gleichen sich bei Aggregation der Primärstudien in ihrer Wirkung auf die ab- hängige Variable aus. Gibt es nur Studien ohne Kontrollgruppen, sind die Unterschiede in der unabhängigen Va- riable festzustellen und so homogene Subgruppen zu bilden, die hinsichtlich ihrer Effektgrößen miteinander ver- glichen werden können. Dieses Vorgehen wurde in der Meta-Analyse von Yeaton & Wortman (1984, S. 45) verwandt, in der es um die Auswirkungen medikamentöser bzw. chirurgischer Behandlung herzkranker Patien- ten auf deren Überlebensrate ging. Es konnte eine Gruppe von älteren Studien gebildet werden, die alle noch die ursprüngliche chirurgische Behandlungstechnik untersuchten, während die neueren Studie dieselbe verbesserte chirurgische Behandlungstechnik überprüften.
Das Vorliegen experimenteller Mortalität kann auch durch die Verwendung randomisierter Studien nicht ausge- schlossen werden. In einem solchen Fall kann man sich mit einer Annahme weiterhelfen wie z.B. Wortman & Yeaton in ihrer Meta-Analyse von 1983 (vgl. zum Folgenden Wortman (1994), S. 97 ff.) , in der es um den Ver- gleich von medikamentöser (Kontrollgruppe) mit chirurgischer (Experimentalgruppe) Behandlung herzkranker Patienten hinsichtlich deren Überlebensrate ging. Die experimentelle Mortalität zeigte sich in der Kontrollgrup- pe. Gleichzeitig trat eine Diffusion hin zur Experimentalgruppe auf. Wortman & Yeaton nahmen nun an, daß die kränksten Patienten die Gruppe wechselten, so daß sich die Überlebensrate in der Kontrollgruppe erhöhte und in der Experimentalgruppe senkte, was zu einem kaum signifikanten Effekt zugunsten der Operation führte. So ließ sich die experimentelle Mortalität bestimmen und die Effektgröße korrigieren, so daß die Signifikanz des Effekts anstieg.
Um zu untersuchen, ob ein Confirmatory Bias (vgl. Bryant & Wortman (1984), S. 14 f.) besteht, daß nämlich die akzeptierten Studien eher die statistischen Hypothesen des Meta-Evaluators bestätigen als die abgelehnten Studien, sind die akzeptierten und die abgelehnten Studien bzgl. der Anzahl positiver Effekte, Nulleffekte und negativer Effekte sowie deren Größe zu vergleichen. Bestehen zwischen beiden Gruppen keine signifikanten Unterschiede diesbezüglich, spielt der Confirmatory Bias keine Rolle.
2.4.4 Arten von Prädiktoren bzw. Moderatoren
Nachdem die Effektstärke für die Stichprobe von Primärstudien bestimmt wurde, kann nun deren Varianz aufgeklärt werden. Es geht darum, herauszufinden, ob die Varianz größer ist als die durch den Stichprobenfehler erwartete. Dazu kann ein Heterogenitätstest durchgeführt werden (vgl. Hedges (1984), S. 34 f.). Fällt dieser signifikant aus, beruhen die verschiedenen Effekte auf verschiedenen Populationen. Sind die Effekte heterogen, ist es natürlich nicht angemessen, sie in einer einzigen Effektgröße zusammenzufassen. Wie sie zusammenzufassen sind, ergibt sich aus einer spezifisch für die Meta-Analysis entwickelten Art von Varianzanalyse, nämlich der Subgruppenanalyse, in der Variablen daraufhin über- prüft werden, ob sie die systematische Varianz der Stichprobe von Primärstudien aufklären können (vgl. zum Folgenden Mullen (1989), S. 56 ff.; Hall et al. (1994), S. 17 ff.). Ist dies der Fall, sind diese Variablen als Moderatorvariablen anzusehen, von denen im Folgenden verschiedene Arten vorgestellt werden.
Es lassen sich vier Arten von Prädiktoren unterscheiden: niedrig inferente, Kodierungen, hoch inferente Kodie- rungen, aus Archiven und historischen Quellen abgeleitete Prädiktoren und im nachhinein abgeleitete theoreti- sche Indizes.
1) Niedrig inferente Kodierungen
Dabei werden Studienmerkmale kodiert, die schon in den Berichten der Primärstudien vorhanden sind. Zur weiteren Analyse müssen diese Daten vom Evaluator nur noch kodiert werden. Beispiele sind das Jahr der Veröffentlichung, der Anteil männlicher Versuchspersonen, die Anwesenheit des Versuchsleiters während der Versuchsdurchführung und das durchschnittliche Alter der Versuchspersonen. Es hat sich bzgl. des Jahres der Veröffentlichung herausgestellt, daß jüngere Studien größere Effektstärken aufweisen, was sich mit der zunehmenden Empfindlichkeit der Operationalisierungs- und Analysemethoden erklären läßt.
Solche Kodierungen werden aufgrund ihres leichten Zugangs häufig für nicht theoriegeleitete und somit exploratorische Analysen verwendet, die oftmals zu neuen Erkenntnissen führen. So konnte z.B. durch eine Meta-Analyse, die das Veröffentlichungsjahr der Studien als Moderatorvariable prüfte, gezeigt werden, daß sich Geschlechtsunterschiede beim Berechnen mathematischer Aufgaben in der Zeitspanne von 1963-1973 zur Zeitspanne von 1974-1988 von einem Drittel auf ein Siebtel einer Standardabweichung verringerten.
Ein Nachteil dieser Art von Moderatorvariablen ist, daß sich der Meta-Evaluator auf die Variablen beschränkt sieht, die die Autoren der Primärstudien in ihren Berichten mitteilen. Dies führt eher zu weniger tiefen und breiten Aussagen. Andererseits ist dieses Vorgehen mit dem geringsten Aufwand verbunden.
2) Hoch inferente Kodierungen
Bei den hoch inferenten Kodierungen handelt es sich um Daten, welche nicht in Primärstudien zu finden sind. Sie werden gewöhnlich in Form von Ratings bezüglich der Studienmerkmale vom Evaluator selbst eingeführt. Auf diese Weise wird oftmals die Qualität der einzelnen Studien eingeschätzt (z.B. durch das Vergeben von Punktwerten für einzelne Studiendesigns). Eine andere, gewagtere Art, solche Moderatorvariablen einzuführen, ist der Versuch, die subjektiven Erfahrungen von Versuchspersonen der Primärstudien zu erfassen. Dabei werden Beurteilern die entscheidenden Aspekte des Vorgehens und der Methoden der Primärstudien präsentiert, ohne ihnen Informationen über Autoren und Ergebnisse der Studien zu geben. Jeder Studie ist sodann von den Beurteilern eine Zahl zuzuordnen, die das Ausmaß anzeigt, in dem der betreffende mögliche Prädiktor (z.B. Ausmaß der Angst, die durch die Untersuchungsbedingungen der jeweiligen Studie ausgelöst wird) in der jeweiligen Studie für den Effekt von Bedeutung ist. In der Meta-Evaluation von Eagly & Crowley zu Ge- schlechtsunterschieden beim Hilfeverhalten z.B. wurde Beurteilern das Szenario geschildert, mit welchem Ver- suchspersonen in Experimenten konfrontiert wurden. Die Beurteiler sollten einschätzen, wie gefährlich es gewe- sen wäre, Hilfe zu leisten und, wenn sie geholfen hätten, wie kompetent und wohl sie sich in der jeweiligen Situ- ation gefühlt hätten. In Eagly & Crowleys Meta-Studie stellte sich heraus, daß Männer mehr Hilfe leisteten als Frauen, weil Frauen die jeweiligen Situationen als gefährlicher einschätzten als Männer.
Solche Ratings wurden oftmals kritisiert mit dem Argument, daß ihre Validität sehr fraglich sei, da die Einschätzungen nicht notwendigerweise übereinstimmen mit den Einschätzungen der ursprünglichen Versuchspersonen. Viele Experten stimmen jedoch darin überein, daß solche Einschätzungen wesentlich zum Verständnis psychologischer Prozesse beitragen können, die in den Primärstudien abliefen.
Um die Vertrauenswürdigkeit solcher Einschätzungen von Beurteilern zu prüfen, gibt es Möglichkeiten, ihre Reliabilität und Validität zu schätzen. Die Reliabilität der Einschätzungen läßt sich durch die Bestimmung der Interrater-Reliabilität bestimmen. Die Validität der Einschätzungen bemißt sich an der Übereinstimmung der Urteile mit den Manipulation checks der Primärstudien, z.B. in wieweit angstauslösende Versuchsbedingungen wirklich angstauslösend für die Versuchspersonen der Primärstudien waren. Fehlen bei einigen Primärstudien Angaben zu Manipulation checks, ist sicherzustellen, daß sowohl die Einschätzungen, die aufgrund der Manipulation checks validiert werden konnten, als auch die Einschätzungen, bei denen dies nicht möglich war, die gleiche Beziehung zu den Ergebnissen beider Teilpopulationen von Studien (mit / ohne Manipulation check) aufweisen.
Ein Nachteil dieses Vorgehens ist, daß es zeitaufwendig ist und problematische Reliabilität und Validität aufweist. Dafür lassen sich so für den Metaevaluator interessante Fragestellungen untersuchen und nicht nur solche Fragestellungen, die der Autor der Primärstudie interessant fand.
3) Aus Archiven und historischen Quellen abgeleitete Prädiktoren
Manchmal gibt es wichtige Außenquellen mit Informationen, die die Unterschiede zwischen Primärstudien erhellen. Ein Beispiel ist die Meta-Analyse von Mullen & Felleman von 1989 über die Auswirkungen von "tripling" (Die Unterbringung von drei Personen in einem für zwei Personen bestimmten College-Schlafraum.), die sich als negativ für das individuelle Wohlbefinden herausgestellt haben. Mittels telefonischer Befragung der Autoren der Primär- studien ließ sich eine Liste der Schlafräume aufstellen, wo die Studien durchgeführt wurden. Wietere auch schriftliche Nachfragen bei denselben Autoren führten zu Stockplänen, auf de- nen die Zimmer des jeweiligen Stockwerkes und die Flurlänge zwischen den Zimmern zu se- hen war. Es stellte sich heraus, daß der negative Effekt des "tripling" durch die Flurlänge ver- stärkt wird.
4) Im nachhinein abgeleitete theoretische Indizes
Bestimmte Merkmale des Vorgehens, des Stimulusmaterials oder der Meßtechnik von Pri- märstudien ermöglichen manchmal die Ableitung theoretischer Indizes, die für eine Fragestel- lung relevant sind. Beispielsweise führten Mullen & Johnson 1989 eine Meta-Analyse über die illusorische Korrelation bei Stereotypisierung durch: In diesem Forschungsparadigma wird Stimulusmaterial vorgelegt, das sich jeweils in der Anzahl von Mitgliedern einer Gruppe A und einer Gruppe B, die ein bestimmtes positives oder negatives Verhalten zeigen, unter- scheidet. Aufgrund der Analyse dieses Stimulusmaterials fand sich, daß ein guter Prädiktor für das Ausmaß an Stereotypisierung die Beurteilungsstrategie des paarweisen Vergleichs auf Distinktheit ist, bei der auf die proportionale Häufigkeit geachtet wird, mit der die kleinere Gruppe das seltenere Verhalten zeigt. Diese Prädiktorvariable war in den Primärstudien nur implizit und versteckt enthalten. Diese Art von Moderatorvariablen macht viel theoretische Vorarbeit nötig, erspart aber dafür Beurteiler-Ratings mit ihrer problematischen Reliabilität und Validität.
Mit Hilfe der beiden zuletzt genannten Arten von Moderatoren bzw. Prädiktoren lassen sich Fragestellungen be- arbeiten, die mit Hilfe der beiden erstgenannten Ansätze nicht angegangen werden könnten. Die Anzahl möglicher Moderatoren ist meist sehr groß. In der Praxis wird sie jedoch gewöhnlich begrenzt durch die Tatsache, daß nur ein Teil der Moderatoren in allen oder zumindest den meisten Studien kodierbar ist. So ist beispielsweise das Veröffentlichungsjahr einer Studie immer dokumentiert, während die ethnische Herkunft ein- zelner Versuchspersonen eher selten dokumentiert ist. Sicherlich ist es eine gute Strategie, nur solche Daten als Moderatorvariablen zu benutzen, die in den meisten Studien auch vorhanden sind. Andererseits könnten manche Daten so wichtig sein, daß es angemessen wäre, sie auch dann zu kodieren, wenn sie nur in einem Teil der Stu- dien dokumentiert wurden. Ein Beispiel ist das Alter von Patienten, wenn es um deren Überleben nach chirurgi- schen Eingriffen geht.
Es sollten nicht zu viele Moderatoren kodiert werden, da mit steigender Anzahl der Moderatorvariablen in der Analyse die Wahrscheinlichkeit steigt, daß signifikante Zusammenhänge zwischen Moderatoren und Kriterium per Zufall entstehen und nicht tatsächlich vorhanden sind. Die Jagd nach dem besten Moderator ist ein sehr riskantes Unterfangen, wohingegen die Kodierung begründeter Moderatoren oftmals belohnt wird.
2.5 Präsentation
In dieser Phase sind (vgl. Mullen (1989), S. 7 f.) alle während der Meta-Analyse getroffenen Entscheidungen zu dokumentieren und zu erklären, damit die Kriterien empirischer Forschung, insbesondere die Objektivität und Replizierbarkeit, gewährleistet sind. Darzulegen ist also, welche Primärstudien warum ausgewählt bzw. ausgeschlossen wurden, welche Daten aus den Primärstudien warum verwendet wurden, deren Gewichtung und die Art deren Integration sowie die Art durchgeführter statistischer Analysen, Korrekturen und verwendeter Moderatorvariablen. Eine genaue Berichterstattung macht eine Replikation der Meta-Analyse möglich: Ist ein Forscher mit einer in einer Meta-Analyse getroffenen Entscheidung nicht ein verstanden, kann er die Folgen einer alternativen Entscheidung unter Verwendung derselben Daten bestimmen.
3. Kritische Bewertung der Meta-Evaluation
Als Fazit dieser Arbeit ist zu ziehen, daß die Meta-Analyse eine brauchbare Methode der Integration und Bilanzierung von Forschungsfeldern ist, da sie sich an den Kriterien empirischer Forschung orientiert und somit ihr Vorgehen und ihre Annahmen explizit und somit überprüfbar macht. Die Verwendung statistischer Methoden ermöglicht die Kontrolle von Verzerrungen der Daten und die zufallskritische Absicherung der Ergebnisse. Sie ist ein wichtiges Entscheidungsinstrument aufgrund ihrer Quantifizierung der zentralen Tendenz und der Erklärung deren Varianz, wenn eine Entscheidung für oder gegen eine Maßnahme gefällt oder ein in Frage stehender Effekt im Hinblick auf Größe, Relevanz und Sicherheit beurteilt werden soll.
Bzgl. Aussagen über Kausalzusammenhänge ist die Meta-Analyse jedoch vor allem von der Höhe der internen Validität der Primärstudien abhängig. Bzgl. der Analysen, die durchgeführt werden können, hängt die Meta- Analyse von den in den Primär-Studien berichteten Daten ab. "Es sind jedoch inzwischen vereinzelt positive Rückwirkungen der metaanalytischen Diskussion auf die Primärforschung beobachtbar.", wie Drinkmann (1990, S. 132) feststellt.
Negativ zu vermerken ist die methodenbedingte Ergebnisvarianz als Folge des "wachsenden meta-analytischen Methodenarsenals" (vgl. Drinkmann (1990), S. 30) und das Fehlen klarer Indikationskriterien für die Auswahl der für die interessierende Fragestellung angezeigten Methoden, was die Objektivität der Meta-Analyse einschränkt.
LITERATURVERZEICHNIS
Bryant, Fred B. & Wortman, Paul M. (1984): Methodological Issues in the Meta-Analysis of Quasi-Experiments. In: Yeaton, William H. & Wortman, Paul M. (Hrsg.): Issues in Data Synthesis. San Francisco: Jossey-Bass 1984. Cooper, Harris & Hedges, Larry V. (1994): Research Synthesis as a Scientific Enterprise. In: Cooper, Harris & Hedges, Larry V. (Hrsg.): The handbook of research synthesis. New York: Russell Sage Foundation 1994. Drinkmann, Arno (1990): Methodenkritische Untersuchungen zur Meta-Analyse. Weinheim: Deutscher Studienverlag 1990.
Fricke, Reiner & Treinies, Gerhard (1985): Einführung in die Metaanalyse. Bern: Huber 1985.
Gleser, Leon J. & Olkin, Ingram (1994): Stochastically Dependent Effect Sizes. In: Cooper, Harris & Hedges, Larry V. (Hrsg.): The handbook of research synthesis. New York: Russell Sage Foundation 1994. Hall, Judith A., Tickle-Degnen, Linda, Rosenthal, Robert & Mosteller, Frederick (1994): Hypotheses and Problems in Research Synthesis. In: Cooper, Harris & Hedges, Larry V. (1994): The handbook of research synthesis. New York: Russell Sage Foundation 1994.
Hedges, Larry V. (1984): Advances in Statistical Methods for Meta-Analysis. In: Yeaton, William H. & Wortman, Paul M. (Hrsg.): Issues in Data Synthesis. San Francisco: Jossey-Bass 1984. Hunter, John E. & Schmidt, Frank L. (1990): Methods of Meta-Analysis. Newbury Park: Sage 1990. Mullen, Brian (1989): Advanced BASIC Meta-Analysis. Hillsdale, New Jersey: Lawrence Erlbaum Associates 1989.
Rosenthal, Robert (1994): Parametric Measures of Effect Size. In: Cooper, Harris & Hedges, Larry V. (1994): The handbook of research synthesis. New York: Russell Sage Foundation 1994.
Wortman, Paul M. (1994): Judging Research Quality. In: Cooper, Harris & Hedges, Larry V. (1994): The handbook of research synthesis. New York: Russell Sage Foundation 1994.
Yeaton, William H. & Wortman, Paul M. (1984): Evaluation Issues in Medical Research Synthesis. In: Yeaton, William H. & Wortman, Paul M. (Hrsg.): Issues in Data Synthesis. San Francisco: Jossey-Bass 1984.
- Arbeit zitieren
- Gisela Haege (Autor:in), 2000, Methodische Grundlagen der Meta-Evaluation, München, GRIN Verlag, https://www.grin.com/document/99043
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.