Gütekriterien

Als Gütekriterien werden eine Reihe von Merkmalen bezeichnet, die dazu dienen, die Qualität von Messinstrumenten und Erhebungsverfahren, ihrer Konzeption und Anwendung einzuschätzen. Die drei Hauptgütekriterien sind: Objektivität, Reliabilität und Validität. Sie wurden im Rahmen der statistischen Testtheorie entwickelt.

Gütekriterien sind sowohl für die standardisierte oder hypothesenprüfende (quantitative) wie auch rekonstruktive oder theoriebildende (qualitative) Forschung relevant.

Gütekriterien in der standardisierten Forschung

Die Güte von Untersuchungen in diesem Bereich wird über Standardisierung und statistische Verfahren sichergestellt.

Objektivität

Dieses Kriterium beschreibt das Maß, wie unabhängig die Messergebnisse von der Person sind, die diese Daten erhebt. Es kennt drei Dimensionen:

Ein hohes Maß an Durchführungsobjektivität ist gegeben, wenn die Messung für alle ProbandInnen möglichst gleich verläuft. Es gilt, eine maximale Standardisierung der Testsituation sowie eine kontrollierte Interaktion zwischen Versuchsleitung und ProbandInnen sicherzustellen. Die Durchführungsobjektivität wäre beispielsweise nicht gegeben, wenn eine Testperson vor der Messung ausführliche Hinweise bekommt, eine andere hingegen nicht.

Ein hohes Maß an Auswertungsobjektivität ist gegeben, wenn die Auszählung oder allgemein die Auswertung der gemessenen Daten nicht von subjektiven Entscheidungen und/oder äußeren Faktoren verzerrt werden kann. Standardisierung und klare Regeln sind hierfür Voraussetzung. Die Auswertungsobjektivität wäre beispielsweise verletzt, wenn mehrere PrüferInnen unterschiedlich mit unvollständigen Antworten in Klausuren umgehen, der eine Prüfer noch einen halben Punkt gibt, die andere Prüferin jedoch nicht.

Ein hohes Maß an Interpretationsobjektivität ist gegeben, wenn die Interpretation der Mess- oder Testergebnisse unabhängig von der Person ist, die diese Interpretation vornimmt oder mehrere Personen die gleichen Testwerte auf die gleiche Weise interpretieren. Klare Regeln und definierte Normen sind notwendig, um sicherzustellen, dass die Ergebnisinterpretation weder auf die Anwendung unterschiedlicher Regeln und Normen noch auf subjektive Entscheidungen oder Kompetenzen der interpretierenden Person zurückzuführen ist. So wäre die Interpretationsobjektivität beispielsweise verletzt, wenn bei der Bewertung von Klassenarbeiten in der Schule unterschiedliche Bewertungsmaßstäbe angewendet würden, die eine Lehrerin für 70 Prozent richtiger Antworten noch eine 2, der andere Lehrer jedoch bereits eine 3 geben würde.

Reliabilität

Dieses Kriterium beschreibt das Maß an Zuverlässigkeit, also die Messgenauigkeit einer Messung. Es geht darum sicherzustellen, dass ein Messinstrument genau so misst, wie es messen soll, und die Messergebnisse nicht von Messfehlern verzerrt sind. Deshalb gilt ein Messinstrument als reliabel, wenn es bei wiederholtem Einsatz unter den gleichen Bedingungen zu denselben Ergebnissen gelangt.

Die Reliabilität wird über Korrelationen bestimmt. Dazu können verschiedene Testverfahren eingesetzt werden (etwa Re-Test oder Paralleltest). Diese Testverfahren werden in der Forschung kritisch diskutiert, schließlich sind die Testbedingungen bei wiederholtem oder parallelem Einsatz nie restlos unverändert. Das gilt schon deshalb, weil immer andere Menschen untersucht werden oder, wenn es doch dieselben sind, die ProbandInnen schon wissen, wie der Test funktioniert, was zwangsläufig die Ergebnisse beeinflusst.

Validität

Dieses Kriterium fragt nach der Gültigkeit, also danach, ob und inwieweit die Messung das misst, was sie messen soll. Anders als bei den Kriterien Objektivität und Reliabilität geht es bei der Validität nicht um Einsatz und Umgang mit dem Messinstrument, sondern um dessen Konstruktion. Inhaltlich valide ist ein Test dann, wenn die Testaufgaben die zu messenden Merkmale abdecken. Ein wichtiger Aspekt bei der Konstruktion eines Messinstruments ist, wie die Testaufgaben von den ProbandInnen bearbeitet werden sollen. So kann es passieren, dass die Bearbeitung der Testaufgaben die zu testenden Merkmale überlagert, sodass nicht die zu testenden Merkmale, sondern vielmehr die mit der Bearbeitung verbundenen Kompetenzen und Fertigkeiten gemessen werden.

Beispiel
Soll die Geschwindigkeit von Entscheidungsprozessen gemessen, darf die gemessene Geschwindigkeit nicht davon abhängen, wie schnell oder langsam die ProbandInnen in der Lage sind, etwas in den Computer einzugeben.

Soll die Fähigkeit von GrundschülerInnen, kurze literarische Texte zu interpretieren, mithilfe eines schriftlichen Aufsatzes gemessen werden, ist es möglich, dass weniger die Interpretations- als vielmehr die Textschreibkompetenz erhoben wird.

Gütekriterien in der rekonstruktiven Forschung

Anders als bei standardisierten Untersuchungen kann die Güte von rekonstruktiven Studien weder über Standardisierung sichergestellt, noch mit statistischen Verfahren bestimmt werden. Vielmehr ist die Güte dieser Forschung davon abhängig, wie mit ihrer offen-explorativen, nichtstandardisierten Grundanlage umgegangen wird.

Objektivität

Nichtstandardisierte Verfahren zur Datenerhebung basieren meist auf einer Interaktion zwischen dem Forscher/der Forscherin und den Beforschten. Eine Standardisierung der Kommunikation oder der Erhebungssituation ist nicht möglich, da der Forscher/die Forscherin zwangsläufig Teil der Untersuchung ist. Von Objektivität im oben definierten Sinn kann daher keine Rede sein. Das heißt allerdings nicht, dass rekonstruktive Untersuchungen willkürlich oder unkontrolliert sind. Ein methodisch kontrolliertes und kontrollierbares Vorgehen ist Voraussetzung.

Eigene Rolle als ForscherIn

Für die Interaktion mit den Beforschten muss sich die Forscherin/der Forscher der eigenen Rolle und des eigenen Verhaltens bewusst(er) werden – antizipierend im Vorfeld, reflektierend im Nachgang. Wie lässt sich die Interaktion zwischen den ForscherInnen und den ProbandInnen beschreiben? Inwiefern ist das, was die Beforschten sagen oder tun, mit dem, was die ForscherInnen sagen oder tun, verbunden?

Elemente natürlicher Kommunikation

(Sozial-)Forschung hat immer mit Sprache und Kommunikation zu tun. Wie in der Alltagskommunikation geht es um wechselseitiges Fremdverstehen – zwischen ForscherInnen und Beforschten unter- und miteinander. Für sprachliche Verständigung generell gilt, dass sich die Bedeutung des Gesagten nicht aus dem bloßen Wortsinn erschließen lässt, sondern sie sich erst im konkreten Gebrauch der Sprache entfaltet. Je nachdem, in welchem Zusammenhang etwas gesagt wird, können ganz unterschiedliche Dinge gemeint sein. Sprachliche Kommunikation bleibt gebunden an den Kontext ihrer Realisierung und ist immer eingebettet in Interaktion.

Zudem gibt es weitere Bedeutungsträger: Intonation, Gestik, Mimik, Gegenstände, auf die verwiesen wird usw. Bezogen auf empirische Forschung und ihre Güte hat dies Konsequenzen, schließlich muss immer klar sein, wer spricht, was gemeint ist und welchen Einfluss die Interaktion hat. Während standardisierte Studien versuchen, Effekte der Interaktion sowie ein ganz oder teilweise unterschiedliches Verständnis von sprachlichen Items von vornherein weitestgehend auszuschließen (Standardisierung), gehen rekonstruktive Untersuchungen den umgekehrten Weg: Interaktion und Kommunikation werden nicht standardisiert, sondern im Gegenteil so natürlich wie möglich belassen. Dies ist Voraussetzung für den explorativen Anspruch, denn nur so können Sachverhalte und Relevanzen erfasst werden, die noch nicht im Vorfeld als Möglichkeit in Betracht gezogen und als standardisierte Items in die Untersuchung eingespeist wurden.

Um trotz dieser Offenheit und Eigendynamik der Interaktion sowie potentiell individueller(er) Sprachverwendung ein methodisch kontrolliertes Fremdverstehen zu ermöglichen, ist es einerseits notwendig, alle notwendigen Informationen zur Sprachverwendung mitzuerheben, also die Beforschten etwas weiter ausholen zu lassen, Pausen oder Mimiken aufzuzeichnen, damit nachvollziehbar wird, wie das, was er oder sie sagt, gemeint ist. Andererseits ist es nötig, die in der Alltagskommunikation intuitiv zum Einsatz kommenden Kommunikationsregeln zu benennen und ihre Bedeutung für die kommunikative Interaktion zu reflektieren: Wo gab es Missverständnisse? Wie wurde dies kommuniziert? Wo wurden Sachverhalte als selbstverständlich vorausgesetzt? Inwiefern war die Erhebungssituation von sozialen, kommunikativen und/oder sprachlichen Rollen oder Routinen gekennzeichnet oder vorbestimmt?

Von einem hohen Maß an Objektivität nichtstandardisierter Sozialforschung kann – zugespitzt formuliert – also nicht gesprochen werden, wenn Interaktion, sprachliche Unschärfen oder Missverständnisse vermieden wurden, sondern dann, wenn diese Phänomene erkannt, beschrieben und plausibel reflektiert wurden, sodass sie für Dritte (in der Regel andere ForscherInnen) nachvollzieh- und beurteilbar bleiben.

Reliabilität

Die Reliabilität nichtstandardisierter Verfahren kann nicht mit Re- oder Paralleltests überprüft werden. Grund ist die offen-explorative, nichtstandardisierte Grundanlage dieser Verfahren. Damit verbunden ist eine prinzipiell nicht wiederholbare Dynamik zwischen ForscherInnen und Beforschten. Außerdem bleibt eine offen-explorative Untersuchung nur dann offen und explorativ, wenn nicht bereits vorab definiert wurde, welche Indikatoren Aufschluss über das zu untersuchende Phänomen liefern. Eine Reliabilitätsprüfung in Bezug auf Auswertung und Interpretation des Materials kann und muss in rekonstruktiven Untersuchungen deshalb nicht vor, sondern erst nach der Datenerhebung stattfinden.

Trotzdem muss auch diese Art der Forschung ihre Zuverlässigkeit sicherstellen und garantieren, dass sie keine lediglich zufälligen oder singulären Ergebnisse produziert. Zwei Aspekte sind zentral:

1. Die Beschreibung der Kommunikation, schließlich strukturiert die Art der Verständigung die Interaktion zwischen ForscherInnen und Beforschten.

2. Die Rekonstruktion der Fallstruktur, deren wiederholtes Auftreten im jeweiligen Fall sowie in anderen Fällen der Erhebung Voraussetzung und Indikator für eine reliable Untersuchung ist.

Beispiel
Untersucht werden soll, wie Studierende wissenschaftlich arbeiten, welche Strategien sie mit welchem Erfolg und wofür einsetzen. Ziel könnte sein, ein umfassendes Bild studentischer Arbeitstechniken zu erhalten. Zu diesem Zweck bieten sich Gruppendiskussionen mit Studierenden aus unterschiedlichen Studiengängen und Fachsemestern an. Angenommen, im Verlauf dieser Untersuchung ließe sich eine Fallstruktur rekonstruieren, in der eine bestimmte Problemlösungsstrategie erkennbar wird (z.B. Zeitpläne erstellen oder Feedback einholen). Dieser Befund ist für sich genommen weder reliabel noch nichtreliabel, denn ein einzelner Befund ist nicht beurteilbar. Erst in der Gesamtschau kann eingeschätzt werden, ob die Fallstruktur in diesem Fall und in anderen Fällen ein- oder mehrmalig auftritt, den roten Faden oder zumindest einen Teil davon bildet. Trifft das zu, ist die Untersuchung reliabel. Trifft das nicht zu, dann ist sie es nicht.

Validität

Die Validität nichtstandardisierter Untersuchungen ist eine Frage von Angemessenheit und Plausibilität. Ob und inwiefern werden der methodische Zugriff einerseits und die begrifflich-theoretischen Konstruktionen andererseits dem zu untersuchenden Phänomen gerecht? Während es bei Ersterem um die Wahl einer angemessenen Erhebungs-, Auswertungs- und Interpretationsmethode (Forschungsdesign) geht, bezieht sich Letzteres darauf, ein methodisch kontrolliertes und kontrollierbares Fremdverstehen zu ermöglichen. Basis bilden die Common-Sense-Konstruktionen der Beforschten, an die es anzuknüpfen gilt. Vereinfacht gesagt: Je adäquater die Common-Sense-Konstruktionen der Beforschten von den ForscherInnen rekonstruiert wurden, je valider die Untersuchung. Trotzdem bleibt die Frage, wie überprüft und sichergestellt werden kann, ob das Fremdverstehen gelungen ist. Hierfür sind die alltäglichen Standards der Kommunikation (und deren Benennung) sowie die Rekonstruktion der Fallstruktur ausschlaggebend.

 


Literatur
  • Przyborski, Aglaja; Wohlrab-Sahr, Monika (2014): Qualitative Sozialforschung. Ein Arbeitsbuch. München: Oldenbourg, Kapitel 1: Erkenntnisinteresse, methodologische Positionierung, Forschungsfeld, Methode.
Allgemeines
Was sind Methoden, wozu sind sie da? Welche Probleme macht die Empirie, was unterscheidet deduktiv von induktiv und qualitativ von quantitativ?