Onlinebefragungen bringen viele ökonomische Vorteile mit sich: Sie sind vergleichsweise kostengünstig, zeitsparend und angenehm auszuwerten. Aber auch aus methodologischer Sicht haben Sie anderen Befragungsmethoden gegenüber die Nase vorn: Interviewereinflüsse fallen weg und auch die Auswirkungen von sozialer Erwünschtheit auf das Antwortverhalten können erfolgreich minimiert werden. Kein Wunder, dass dieser Befragungsmodus in den letzten Jahren an enormer Beliebtheit gewonnen hat.
Allerdings bringt der hohe Grad an (empfundener) Anonymität in der typischen Onlinebefragung auch einige Probleme mit sich: Teilnehmer fühlen sich bei schriftlichen (Online)Befragungen weniger verpflichtet den Fragebogen gewissenhaft auszufüllen, als wenn Ihnen beispielsweise ein Interviewer gegenübersitzt oder am Telefon zuhört. Dadurch erhöht sich auch die Tendenz zum Ankreuzen von falschen oder willkürlichen Antworten, insbesondere dann, wenn die Teilnehmer zum Ausfüllen des Fragebogens verpflichtet werden oder am Ende der Befragung ein attraktiver Incentive (z.B. Gutschein, Verlosung) wartet. Solches Verhalten – wahlloses- oder Muster-Ankreuzen, sowie die systematische Wahl einer spezifischen Antwortmöglichkeit– verschmutzt die Daten und kann zu Verzerrungen in den Auswertungen führen. Die ist vor allem dann besonders problematisch, wenn die Rücklaufzahl insgesamt eher gering oder der Anteil der verschmutzten Rückläufe hoch ist.
Inhaltsabhängiges vs. Inhaltsunabhängiges verschmutzendes Verhalten
Wenn man von verschmutzten oder verzerrten Daten spricht, kann man grundsätzlich zwischen zwei Arten von potentiellen Ursachen für dieses Verhalten unterscheiden: Ursachen, die aus dem Inhalt des Fragebogens entstammen (inhaltsabhängiges Verhalten), und Ursachen welche unabhängig vom Befragungsinhalt auftreten und somit vom Teilnehmer selbst ausgehen (inhaltsunabhängiges Verhalten).
Bekannte Beispiele von Ursachen für inhaltsabhängiges verschmutzendes Verhalten sind beispielsweise Reihenfolgeeffekte, Suggestivfragen oder nicht-ausbalancierte Skalen. Um diesen Arten von Effekten entgegen zu wirken, wurden durch die Methodenforschung zahlreiche Standardregeln entwickelt, die bei der Gestaltung von Befragungen eingehalten werden sollen. Eine gute Zusammenstellung dieser Regeln sowie auch der verschiedenen Ursachen finden Sie beispielsweise in Rolf Porst (2013) «Fragebogen – Ein Arbeitsbuch».
Hauptthema dieses Blogbeitrags ist jedoch jenes Verhalten, welches weitaus weniger erforscht und komplexer auszumerzen ist: das inhaltsunabhängige verschmutzende Verhalten. Als Durchführer/in einer Onlinebefragung haben Sie im Normalfall keinen Einfluss auf das Verhalten und die Prädisposition des Teilnehmers, der zu Hause vor dem Bildschirm sitzt und Ihre Umfrage ausfüllt. Dennoch gibt es eine Handvoll Techniken, die es Ihnen erlauben, den Grad der Verzerrung durch diese Art von Verhalten zu minimieren.
Response Sets
Mit Response-Set wird ein Muster in der Beantwortung von Fragebatterien gemeint, welches unabhängig vom Inhalt der Frage oder des Fragekontexts auftritt. Solche Muster können in verschiedenen Formen auftreten. Die häufigsten dieser Formen sind dabei:
- Response Range: Ein Teilnehmer verwendet unabhängig vom Inhalt der Frage oder der Ausrichtung der Antwortvorgaben immer nur einen bestimmten Bereich der Skala.
Beispiel: Ein Teilnehmer wählt bei jeder Frage den ersten oder zweiten Skalenpunkt resp. die erste oder zweite Antwortmöglichkeit an – unabhängig von der Polung (Ausrichtung) der Skala oder der Anzahl möglicher Antworten (Abstufungen). Innerhalb einer Tabellenfrage könnte dies Beispielsweise so aussehen:
- Extreme Checking Style: Ein Teilnehmer kreuzt abwechselnd den linken und den rechten Extrempunkt der Skala an.
Beispiel: Bei Frage 1 wählt der Teilnehmer die erste (oder auf einer Likert-Skala, die am weitesten links liegende) Antwortmöglichkeit, bei Frage 2 die Letzte (am weitesten rechts), bei Frage 3 wieder die Erste (Links), bei Frage 4 die Letzte (Rechts), etc.
- Muster-Ankreuzer: Wenn man das Antwortbild einer Tabellenfrage (z.B. Fragetypen «Tabelle Multi-Rating«, «Tabelle Multiple-Choice» oder «Freie Matrix» unseres Tools) betrachtet, lassen sich Muster, wie beispielsweise Diagonalen oder Pfeile, finden.
Beispiel:
- Straightliner: Teilnehmende weisen ein sogenanntes Null-Varianz Antwortverhalten auf, d.h. Sie kreuzen immer dieselbe Antwort an, unabhängig von der Anzahl Antwortmöglichkeiten oder der Polung der Skala. Besonders oft wird die durchgängige Wahl des mittleren Skalenpunktes («Centrism») oder eines Extremwerts («Extremism») beobachtet.
Beispiel: Ein Teilnehmer wählt bei jeder Frage die erste Antwortoption aus («Extremism)».
Grundsätzlich sind alle Formen von Response-Sets sowohl zwischen als auch innerhalb von Fragen mit mehreren bewertbaren Items auffindbar. Allerdings sind Straightliner und Muster-Ankreuzer tendenziell eher innerhalb einer Tabellenfrage anzutreffen.
Folgen
Besonders Straightliner sind bei unmotivierten Teilnehmern beliebt. Studien ergeben, dass bei einer offenen Onlinebefragung jeder vierte Teilnehmer mindestens eine von neun ausgewählten Fragen mit Null-Varianz Antwortverhalten beantwortet hat (Jandura, 2018). Doch wie schwerwiegend sind die Folgen von Response-Sets für die Datenqualität und Auswertungen?
Für viele der gängigen statistischen Auswertungen sind die Auswirkungen glücklicherweise gering. Gerade bei Häufigkeitsauszählungen (OU-Standardauswertung), Mittelwerten, einfachen Streuungsmassen oder Korrelationsmassen werden nur marginale Effekte nachgewiesen. Allerdings wächst die Differenz zwischen den Ergebnissen mit und ohne Teilnehmer mit Response-Sets mit dem Anteil der Befragten, die auf solches verschmutzendes Verhalten zurückgreifen.
Aus diesem Grund sollte man sich auch bei solchen Auswertungen Gedanken darüber machen, ob und in welchem Ausmass verschmutzendes Verhalten vorliegen könnte und wie damit umgegangen werden soll.
Stark problematisch werden durch Response-Sets verschmutzte Daten jedoch bei Analysen, die sich an der Ähnlichkeit von Antworten orientieren. Dazu gehört allen voran die Cluster-Analyse (z.B. Chi-Quadrat, Jaccard-Koeffizient, oder Pearson Korrelationskoeffizient), welche beispielsweise bei Zielgruppen- oder Zusammenhangsanalysen eingesetzt werden. Auch in unserem Tool können solche Analysen mittels der Auswertungsfunktion «Chi-Quadrat-Mehrfeldertest mit Kreuztabelle (für nominale Items) / Signifikanz / Pearson / Cramer)» vorgenommen werden.
Wenn davon ausgegangen werden muss, dass Teilnehmer mit Response-Sets vorhanden sind und diese die Auswertungen bedeutend verzerren, muss vor den Auswertungen eine Datensatzbereinigung vorgenommen werden. Bei dieser Bereinigung werden verschmutzte Rückläufe aus dem Datensatz gelöscht oder zumindest von der Auswertung ausgeschlossen (z.B. über die Superfilter-Funktion unseres Onlinetools).
Identifikation & Datensatzbereinigung
Es gibt verschiedene Arten um verschmutzendes Verhalten zu identifizieren. Die meisten Strategien beziehen sich dabei auf die Identifizierung nach der Messung, d.h. nachdem die Feldphase der Befragung beendet wurde und der Datensatz vorliegt. Allerdings gibt es auch einige Möglichkeiten, bereits bei der Gestaltung des Fragebogens Mechanismen einzubauen, die die Identifizierung von Response-Sets vereinfachen.
Zu diesen Mechanismen gehören sogenannte Aufmerksamkeitstests, die überprüfen ob die Aufgaben sorgfältig gelesen und ausgefüllt werden. Beispielsweise können in der Frageformulierung unübliche Anweisungen gegeben werden («Kreuzen Sie die nachfolgende Checkbox nicht an, wenn Sie dies gelesen haben»). Eine zweite gängige Technik sind umgepolte (umgedrehte) Skalen (z.B. wenn «sehr gut» plötzlich nicht mehr am linken sondern am rechten Ende der Skala aufzufinden ist) oder Fallen, die widersprüchliches Verhalten aufdecken. Beispielsweise kann ein Produkt, von dem der Teilnehmer in einer früheren Frage angegeben hat, dass er es nicht kennt, trotzdem in Folgefragen mitangezeigt werden. Falls der Teilnehmer dann dieses Produkt trotzdem bewertet statt «Kenne ich nicht» anzuwählen, widerspricht er sich selbst, was darauf hindeutet, dass eine der beiden Fragen nicht korrekt gelesen oder einfach willkürlich geantwortet wurde.
Für die Identifikation der Response-Sets im Datensatz, d.h. nach Ende der Befragung, schlägt die Methodenliteratur verschiedene Verfahren vor:
- Response Range: Vergleich der Standardabweichung über alle Items. Geringe Standardabweichungen weisen auf die Verwendung von Response Range hin.
- Straightliner: Teilen der Anzahl Male, die eine Antwortmöglichkeit (z.B. die erste Antwortmöglichkeit) gewählt wurde, durch die Anzahl der Items dieser Tabellenfrage (z.B. 5x die erste Antwortkategorie / 6 Items = 0.83) oder die Gesamtzahl Fragen im Fragebogen. Wenn der Quotient 1 beträgt, liegt Nullvarianz im Antwortverhalten vor.
- Extreme Checking Style: Auch hier ist der für die Straightliner unter 2. beschriebene Quotient ein guter Indikator. Wenn Extreme Checkying Style vorliegt, beträgt dieser für alle Antwortkategorien, mit Ausnahme der Extrempunkte (erste und letzte Antwortmöglichkeit), null. Für die Extrempunkte sollte ein Quotient von etwa 0.5 vorliegen.
- Muster-Ankreuzer: Eine anerkannte «einfache» Methode, wie bei den anderen Response-Sets, gibt es hier leider nicht.
Wir empfehlen die Antwortzeiten für die jeweilige Tabellenfrage zu untersuchen und darin die Speeder (Befragte, deren Antwortzeit für diese Frage weniger als die Hälfte des Medians der Antwortzeit für diese Frage beträgt) zu identifizieren. Über die Funktion «Ausgefüllte (einzelne) Fragebogen anzeigen/ausdrucken («Originale» aller Teilnehmer)» unseres Tools, lassen sich anschliessend die Fragebögen der ausgewählten Teilnehmer anzeigen und einzeln von Auge auf Muster überprüfen.
Der komplette Ausschluss von Speedern von der Auswertung, ist übrigens ein Verfahren, dass in der Marktforschung regelmässig angewandt wird, um die Qualität des Datensatzes zu verbessern. Wir empfehlen jedoch, nicht blind nach der Regel «Alles, was unter der Hälfte des Medians der Bearbeitsungszeit ist, ausschliessen» vorzugehen. Gerade bei Fragebögen mit Pfaden oder Sprüngen kann die Ausfüllzeit je nach persönlicher Pfadführung dramatisch variieren. Viel mehr sollte auf den Kontext der Befragung und die Zielgruppe geachtet werden.
So empfiehlt sich das Entfernen von Speedern grundsätzlich bei Panelbefragungen, Pflichtbefragungen oder Befragungen, die öffentlich publiziert werden und einen attraktiven Incentive bieten. Weniger häufig auftreten sollten Speeder bei Befragungen von ausgewählten Gruppen wie beispielsweise Mitarbeitern oder Kunden mit engem Kontakt.
Gültige Straightliner: Nullvarianz-Antwortverhalten als Ausdruck von Validität und Reliabilität der Umfrage
Mit ihrem Artikel «Valid vs. Invalid Straightlining: The Complex Relationship Between Straightlining and Data Quality» beleuchten Kevin Reuning und Eric Plutzer einen interessanten zweiten Blickwinkel auf das Thema «Straightliner»: Gültige Straightliner als Ausdruck der Konsistenz von Itembatterien— ein Zeichen guter Datenqualität statt verschmutzter Daten.
Die Autoren argumentieren, dass in vielen gängigen Umfrageformaten ein Nullvarianz-Antwortverhalten durchaus plausibel ist. Beispielsweise sollten Teilnehmende, die nie Erfahrung mit Mobbing gemacht haben, eine Reihe an Fragen zur Erfahrung mit verschiedenen Arten von Schikanen konsequent mit «nie» beantworten.
Es ist demnach zu erwarten, dass eine Itembatterie, deren Skala das gewünschte unterliegende Merkmal mit hoher Genauigkeit misst (hohe Reliabilität und Validität), bei gewissenhaften Teilnehmenden zu einem Nullvarianz-Antwortverhalten führt, sofern die Items allesamt in dieselbe Richtung formuliert sind.
Reuning und Plutzer postulieren, dass gültiges Straightlining dann auftritt, wenn (1) Teilnehmende motiviert sind, Fragen und Antworten gewissenhaft durchzulesen und ehrlich zu beantworten und (2) daraus identische Angaben zu einer Reihe von Fragen resultieren.
In einer Reihe von Simulationen untersuchen die Autoren die Einflüsse von Validität und Reliabilität auf das Aufkommen von gültigen Straightlinern, sowie deren Auswirkung auf Auswertungen, speziell bei Regressionsanalysen.
Sie stellen fest, dass die Menge an gültigen Straightlinern mit der Validität und Reliabilität des Fragebogens und somit mit der Datenqualität steigt. Zudem ergeben Ihre Simulationen, dass das Entfernen von gültigen Straightlinern zu einer Art «Sample Selection Bias» (Stichprobenverzerrung) führt und somit die Ergebnisse von Analysen verfälscht.
Was bedeuten diese Findings nun für Ihre Umfrage und den Umgang mit Straightlinern? Grundsätzlich lassen sich aus dem Artikel zwei Hinweise für die Fragebogengestaltung und Datensatzbereinigung ableiten:
- Fragebogengestaltung: Bauen Sie nach Möglichkeit umgekehrt gerichtete Items in Ihre Tabellenfragen ein. Reuning und Plutzers Simulationen ergeben, dass bereits das Integrieren einer einzigen umgekehrt gerichteten Frage in eine Itembatterie bis zu 98% der gültigen Straightliner entfernt. Einzig bei Skalen mit einer Mittelkategorie, bei der eine grosse Menge der Teilnehmenden Ihre Einschätzung im Skalenmittelpunkt abgeben, büsst der Ausschluss von gültigen Straightlinern durch ein umgekehrt gerichtetes Item an Effektivität ein.
- Datensatzbereinigung: Das Entfernen von sämtlichen Straightlinern kann zu Stichprobenverzerrung führen. Daher sollte bei der Datensatzbereinigung überprüft werden, ob bei den betroffenen Skalen und Itembatterien ein gültiges Straightlining denkbar wäre. Zudem können weitere Kriterien (wie beispielsweise die Bearbeitungszeit der betroffenen Frage, sowie das Antwortverhalten bei ähnlichen Fragen) Hinweise darauf liefern, ob ein Straightliner durch gewissenhaftes Beantworten oder verschmutzendes Verhalten entstanden ist.
Unterstützung
Sie sind sich unsicher, ob Response Sets bei Ihrem Befragungsprojekt ein Problem darstellen oder benötigen Hilfe beim Bereinigen Ihres Datensatzes? Nehmen Sie Kontakt mit uns auf! Unsere Mitarbeiter unterstützen und beraten Sie gerne zu diesem Thema!
Literatur
Porst, Rolf (2013). Fragebogen – Ein Arbeitsbuch. Wiesbaden: Springer Fachmedien GmbH.
Jandura, Olaf (2018). «Fake Data?» in: Rössler, Patrick & Rossmann, Constanze (Hrsg.). Kumulierte Evidenzen. Seiten 207-223.
Reuning, K. & Plutzer, E. (2020). Valid vs. Invalid Straightlining: The Complex Relationship Between Straightlining and Data Quality. Survey Research Methods, 14(5), 439-459.