Datenqualität erhöhen: Was Fische mit Aufmerksamkeits-Checks in Onlineumfragen zu tun haben.

Onlineumfragen werfen spezifische Fragen zur Datenqualität auf. Unter anderem wegen des Risikos, dass Fragebögen mit geringem Involvement ausgefüllt werden. Wir diskutieren technische und psychologische Massnahmen, welche die Aufmerksamkeit von Teilnehmenden identifizieren oder fördern und die Datenqualität verbessern. Welche Tricks sind sinnvoll, was sollte man vermeiden? 

Mit webbasierten Befragungen lassen sich neue Zielgruppen realisieren. Neben der günstigen Zugriffsmöglichkeit, geografischer Unabhängigkeit und logistischen Vorteilen werden aber auch unseriöse Teilnahmen begünstigt. Der Anteil an verschmutzten Daten nimmt zu und die Aussagekraft der Ergebnisse wird vermindert. Weiter kann eine Website im Gegensatz zu einem handfesten Papier-Fragebogen auch das «Gefühl einer geringeren Verantwortlichkeit vermitteln» (Johnson, 2005, S. 108). Dies stellt eine ernsthafte Bedrohung für die Validität der Online-Forschung dar (Oppenheimer et al., 2009; Reips, 2002, 2009; Meier & Gwerder, 2022).

Im Gegenzug liefern Onlineumfragen meist auch Metadaten wie Ausfüllzeiten insgesamt, Ausfüllzeiten vom Laden der einzelnen Frage bis zu deren Beantwortung, Browserkennung, Betriebssystem, Bildschirmgrösse, IP-Adresse, Mausbewegungen und weitere Informationen, welche nach der Feldphase, wenn alle gesammelten Daten vorliegen, für ein Screening unaufmerksamer Antworten herangezogen werden können (Barge & Gehlbach, 2012; Bauermeister et al., 2012; Meade & Craig, 2012; Meier & Gwerder, 2022).

Mit unserem Artikel möchten wir einen Überblick über verschiedene Techniken zur Messung der Aufmerksamkeit in Onlineumfragen ermöglichen – Techniken, die durch akademische Erkenntnisse bestätigt oder überprüft wurden und/oder sich in der Praxis bewährt haben, um die Anzahl «schlechter Antworten» zu begrenzen.

Aber was sind «schlechte Antworten»?

Generell werden als «schlecht» jene Antworten angesehen, die nicht die eigentliche Meinung oder das Wissen der Umfrageteilnehmenden wiedergeben, sondern irgendetwas anderes im Sinne eines Messfehlers. Die Gründe, weshalb Teilnehmende «schlechte» Antworten abgeben, sind vielfältig: Sie verweigern das korrekte Ausfüllen und geben stattdessen Fake-Antworten ab, sie sind schlichtweg abgelenkt, wissen die Antworten nicht oder nehmen sich nicht die nötige Zeit, ihre Antworten sorgfältig abzufüllen oder in die Antwortformate einzupassen.

Dabei gibt es eine Auslegeordnung, was solche “schlechten” Daten angeht:

Als sogenannte «sinnlose Antworten» oder auch «content responsive faking» (Meade & Craig, 2012; Burns & Christiansen, 2011) werden in der Regel jene Antworten verstanden, bei denen Teilnehmende die Frage an sich aufnehmen und verstehen, aber bewusst keine gültige Antwort geben wollen («intended faking»). Dazu zählen betrügerisches Ausfüllen, z. B. in psychologischen Testverfahren wie dem MMPI2 (Rogers, 2003) oder in Job Assessments (Delgado, 2011) – aber auch bewusstes oder unbewusstes itembezogenes, sozial erwünschtes Antwortverhalten (Paulhus, 1984).

Demgegenüber stehen «content nonresponsivity» Antworten, die in keinem Zusammenhang zum Inhalt der Fragen stehen (Nichols et al., 1989; Desimone et al., 2018). Sie werden auch als «random response» (Beach, 1989; Berry et al, 1992), «careless responding» (Curran, Kotrba, & Denison, 2010) oder «protocol invalidity» (Johnson, 2005) bezeichnet. Darunter fallen auch die Subkategorien «Response sets» (Jandura, Peter, & Küchenhoff, 2012) und «response styles» (Van Vaerenbergh & Thomas, 2012) – alles formale Verschmutzungen von Daten (Meier & Gwerder, 2022), die mehr oder weniger unabhängig von der Fragestellung und nicht zentraler Gegenstand dieses Artikels sind.

Eine Zwischenkategorie bilden Teilnehmende, die an sich bereit wären, eine gültige Antwort abzugeben, dies aber nicht vollumfänglich tun. Beim Satisficing-Verhalten lesen Befragte die Fragestellung lediglich oberflächlich und geben jene Antwort ab, die ihnen zuerst in den Sinn kommt oder ihnen plausibel erscheint (Krosnick, 1991, 1999; Krosnick, Nayaran, & Smith, 1996;). «Pseudo-opinions» (Bishop, Oldendick, Tuchfarber, & Bennett, 1980) und «nonattitudes» (Franzén, 2011; Schuman & Presser, 1980) sind Antworten von Befragten, die nicht über das nötige Wissen verfügen, um eine passende Antwort auszuwählen, die Frage falsch oder gar nicht verstehen oder die Fragen und Antworten nicht oder nicht akkurat genug lesen können. Gerade bei Fragebögen für Kinder ist solches «Unintentional Random Responding» häufig. Auch nicht-item-bezogenes, mehr persönlichkeitsbedingtes, sozial erwünschtes Antwortverhalten fällt in diese Zwischenkategorie. Erwähnt sei auch das Under- and Overreporting als Abweichung hin zu mehr oder weniger wahren Antworten durch zu positiv oder zu negativ konnotierte Fragen.

Umfrageforschende stellen sich dieser Herausforderung verminderter Aufmerksamkeit schon, bevor Daten erhoben werden. Dabei gibt es zwei Grundstrategien: Sie integrieren diskret eingewobene Aufmerksamkeitstests in die Fragebögen, um unaufmerksame Teilnehmende zu entlarven und zugunsten der Datenqualität aus der Analyse auszuschliessen, oder sie integrieren explizite, gut sichtbare Aufmerksamkeitsprompts, um Teilnehmende ganz offen darum zu bitten, aufmerksam zu antworten.

Zur Erinnerung: Aus Sicht des traditionellen kognitiven Modells der Umfragebeantwortung (CMSR, Cognitive Model of Survey Response) von Tourangeau, Rips und Rasinski (2000) durchlaufen Antwortende vier Schritte: erstens das Verständnis der Frage, zweitens das  Abrufen relevanter Informationen aus dem Gedächtnis, drittens das Bilden eines Urteils aufgrund der abgerufenen Informationen und viertens das Auswählen einer passenden Antwort resp. das Einpassen in oder Editieren der Antwort ins vorgegebene Antwortformat. Das nur oberflächliche oder unvollständige Durchlaufen dieser Schritte nennt Krosnick (1991; 1999) «nonoptimal response behavior». Diese fehlende Aufmerksamkeit beeinflusst den kognitiven Beantwortungsablauf auf mindestens vier Arten:

  • Teilnehmende verstehen die Frage nicht richtig, weil sie diese nicht oder nicht seriös gelesen haben. Dadurch werden nicht die richtigen Informationen abgerufen.
  • Es werden nicht alle Informationen abgerufen, was die Urteilsbildung verzerrt.
  • Ein Urteil wird heuristisch gebildet und weist eine mangelhafte Reliabilität auf.
  • Teilnehmende können die passende Antwortkategorie nicht auswählen, weil sie die verfügbaren Optionen nicht genügend aufmerksam verarbeitet haben.

Zusammengefasst: Unaufmerksamkeit führt zu Mess- und Non Response-Fehlern.

Unaufmerksamkeit führt auch zu einer Situation, in der «das Rauschen, das durch Teilnehmer entsteht, die die Anweisungen nicht lesen, die Zuverlässigkeit der Daten verringert und die mit der Durchführung von Studien verbundenen Kosten erhöht, da die Anzahl der Teilnehmer, die für ein zuverlässiges Ergebnis erforderlich ist, künstlich erhöht wird» (Oppenheimer et al. 2009, S. 873).

Explizite Ernsthaftigkeitsprüfungen

Was kann nun aber konkret getan werden, um dieses komplexe Datenqualitätsproblem in Antwortdaten zu adressieren? Zunächst: Warum schwierig, wenn es auch einfach geht? Anstatt durch komplizierte Verfahren auf das Verhalten von Teilnehmenden zu schliessen, kann direkt gefragt werden, ob Aufmerksamkeit vorhanden war. Diesen Ansatz verfolgen Ernsthaftigkeitsprüfungen (engl. «seriouseness checks»).

Durch Fragen wie «Gibt es Gründe, weshalb wir Ihre Antworten nicht in unsere Analyse einfliessen lassen sollten?» oder «Es wäre sehr hilfreich, wenn Sie uns an dieser Stelle mitteilen könnten, ob Sie ernsthaft teilgenommen haben, sodass wir Ihre Antworten für unsere wissenschaftliche Analyse verwenden können, oder ob Sie sich nur durchgeklickt haben, um sich die Umfrage anzuschauen?», wird den Teilnehmenden die Möglichkeit gegeben, offen zu deklarieren, dass sie die Befragung nicht gewissenhaft ausgefüllt haben (Aust, 2013). Als Antwortmöglichkeiten bieten sich an: «Ich habe ernsthaft teilgenommen» und «Ich habe nur durchgeklickt, bitte verwenden Sie meine Daten nicht für die Analyse» (s. Abbildung 1).

Abbildung 1: Expliziter Seriousness Check am Ende einer Befragung.

Die entsprechende Frage kann entweder zu Beginn (Reips, 2002, 2008, 2009) oder am Ende des Fragebogens platziert werden (Buchanan et al., 2010; Ihme et al., 2009). In der Praxis wird sehr oft die zweite Option bevorzugt, da die Teilnehmenden am Ende der Befragung ihr tatsächlich Verhalten während der Befragung zuverlässiger einschätzen können als ihr geplantes Handeln.

Ernsthaftigkeitsprüfungen wurden auch im Rahmen einer Befragung zu den Bundestagswahlen 2009 untersucht (Aust et al, 2013). Insgesamt gaben 112 (3.2 %) der 3’490 Teilnehmenden an, nicht seriöse Angaben gemacht zu haben. In der anschliessenden Analyse zeigte sich, dass die restlichen 3’378 Teilnehmenden konsistentere Angaben machten und dass die Prognose des Wahlergebnisses besser mit der Realität übereinstimmte, wenn die 112 Fälle, die sich selbst als nicht ernsthaft deklariert hatten, ausgeschlossen wurden. Andere Autorinnen und Autoren fanden in unterschiedlichen Kontexten auch Werte in der Höhe von 5 % bis 6 % oder 30 % bis 50 % (Musch & Klauer, 2002; Reips, 2009). Grundsätzlich dürfte die Menge an unseriösen Teilnahmen stark vom Befragungskontext sowie von den Anreizen der Teilnehmenden abhängen. Beispielsweise ist bei Befragungen, bei welchen am Ende eine Belohnung winkt, mit sehr tiefen Selbstdeklarationsquoten zu rechnen, da die Teilnehmenden befürchten, auf eine Gewinnchance verzichten zu müssen, wenn sie zugeben, unseriös ausgefüllt zu haben. Dies hängt wohl stark davon ab, wie Ernsthaftigkeitsprüfung und «Gewinnseite» verquickt sind.

Die Herausforderung bei diesem direkten Ansatz liegt grundsätzlich in einer geschickten Formulierung, welche die Teilnehmenden zu einer ehrlichen Antwort motiviert, sie gleichzeitig aber nicht vor den Kopf stösst. Auch gibt es Befragungen, bei denen dieser Ansatz aufgrund der Beziehung zu den Teilnehmenden weniger geeignet ist. Beispielsweise besteht bei einer offenkundigen Ernsthaftigkeitsprüfung am Ende einer Kundenzufriedenheitsbefragung das Risiko, Kundinnen und Kunden, welche sich die Zeit für die Befragung genommen haben, zu verärgern oder zu irritieren, was bei diesem Anwendungsfeld von den Auftraggebenden weniger gut toleriert würde. Bei Panel-Befragungen und Studien hingegen eignet sich dieser Ansatz besser, solange eine ehrliche Antwort auf diese Frage den Erhalt der Incentivierung für die Umfrage nicht verhindert.

Fischers Fritz fischt rote Heringe

Eine weitere Methode zur Identifizierung von Aufmerksamkeit besteht darin, offenkundig falsche oder absurde Antworten in einen Fragebogen einzubauen. Was aber hat das mit Fischen zu tun? Im englischen Sprachgebrauch bezeichnet ein Red Herring (roter Hering) ein Element, das in die Irre führt oder von einer relevanten oder wichtigen Frage ablenkt.

In der Umfrageforschung ist mit einem Red Herring eine Ablenkungsfrage als Massnahme zur Qualitätskontrolle gemeint. In eine Reihe von regulären Fragen werden ungewöhnliche Fragen eingefügt, um damit diejenigen Teilnehmenden zu identifizieren, welche die Umfrage vollständig gelesen und sich mit den Inhalten beschäftigt haben resp. jene, die dies nicht getan haben. Die – natürlich bei Befragungen immer – zu den sinnvollen, regulären Fragen gehörenden Ablenkungsfragen umrahmen dabei oft die dadurch nicht mehr saliente, «getarnte» Validitätsfrage. Als Hypothese gilt: Wer den roten Hering nicht sieht, ist nicht aufmerksam bei der Sache. Im Folgenden wird auf mehrere solche «Heringsarten» eingegangen, bei welchen Teilnehmende den Datenqualitätsfischern «ins Netz gehen» können.

Fiktive Antworten

In der NZZ-Leserbefragung 2005/2006 ergab sich ein kurioses Ergebnis: 189 von 1’883 Teilnehmenden (10 %) gaben an, dass ihnen das NZZ-Folio-Magazin mit dem Thema «Katastrophen» von allen Folios am besten gefallen habe. Der Clou? Dieses Heft gab es nie. Im Fall der NZZ scheint es plausibel, dass ein Teil der 189 Probanden das Folio mit dem Thema «Katastrophen» wählte, weil sie sich nicht an alle NZZ-Folios erinnern konnten, dies aber nicht zugeben wollten und daher ein Heft mit einem spannend klingenden Titel wählten (Porst, 2014). Dabei ist anzumerken, dass zusätzliche Antwortvorgaben wie «Ich kenne die NZZ-Folio-Magazine nicht», «keine Angabe/weiss nicht» oder «Ich kann mich nicht entscheiden» hilfreiche Ausweichkategorien wären, die im NZZ-Szenario bei dieser Frage zur Steigerung der Datenqualität beigetragen, jedoch umgekehrt weniger Rückschlüsse auf verminderte Aufmerksamkeit zugelassen hätten.

Zu diesem sogenannten antizipierenden Antwortverhalten im Falle von Unwissen sind historisch zahlreiche Beispiele bekannt. Bishop et al. (1986) beschreiben diesen «Pressure to answer» ausführlich. So gaben 70 % der Befragten in einem Fragebogen eine klare Meinung zum «Metallic Metal Act» ab – einem völlig fiktiven Gesetz (Gill, 1947). Gleiches geschah mit 30.8 % zum «Agricultural Trade Act of 1978» (Schuman und Presser, 1981) und 26.4 % zum «Monetary Control Bill» (Schuman und Presser, 1981).

Auch Werner Wilken, ein aktuell nicht existierender Politiker, wird regelmässig in Umfragen gekannt, aber «man stimmt mit seiner Politik nicht ganz überein» (Porst, 2014). Dies gilt auch für weitere fiktive Politikerinnen und Politiker (EMNID, 1981; Reuband, 2000). Und je höher die formale Schulbildung der Befragten, desto bekannter sind die Fiktiven.

Aber warum ist das so? Die Kognitionspsychologie liefert eine Antwort: Befragungen wird Sinn unterstellt («die Ersteller des Fragebogens werden wohl seriös gearbeitet haben»): sinnlose Antworten widersprechen der Erwartungshaltung der Teilnehmenden. Dazu kommt eine Hemmung, zuzugeben, dass man etwas nicht kennt, das offenbar allgemein bekannt sein muss, da in einem Fragebogen ja kaum Spezialwissen abgefragt wird. Diese Annahmen treffen gehäuft Befragte, von denen viel formales Wissen erwartet wird. Stellt sich dann noch die Frage, ob man mit seiner Politik einverstanden ist, müssen die Flunkerer erneut lügen. Da sie ihn nicht kennen, liegt es nahe, dass die Politik nicht den eigenen Präferenzen entspricht. Fragen mit fiktiven Antworten sind also nur eingeschränkt geeignet, um nicht vorhandene Aufmerksamkeit zu erkennen. Sie widerspiegeln häufig nur die menschliche Eigenschaft, sich nicht blamieren zu wollen und deshalb möglichst passende oder konsistente Kommunikation zu selektieren.

Bogus Items

Bei sogenannten «Bogus-Items» – (Fragen, zu welchen es objektiv nur eine richtige Antwort gibt z. B. die Frage «Wasser ist nass» – ist das Risiko von heuristischen, spekulativen oder sozial erwünschten Ersatzantworten wie im vorherigen Abschnitt beschrieben deutlich geringer, weil das Unterstellen von Sinn weniger gut gelingt. Wer diese Frage mit «stimme ganz und gar nicht zu» beantwortet, hat höchstwahrscheinlich den Fragetext nicht aufmerksam genug gelesen (Gummer et al., 2021). Eine ähnliche Bogus-Frage ist «Ich wurde am 30. Februar geboren» (Beach, 1989) oder «I am currently filling out a questionnaire» (Hargittai, 2009; Meade & Craig, 2012). Bogus-Items werden oft in längere Abfolgen von Likert-Skalen, meist auf derselben Seite («Tabellenfragen») im Sandwich eingebettet.

Es wird also Aufmerksamkeit gemessen – und lediglich bei nicht offenkundig oder extrem genug formulierten Items auch die Tendenz, Nichtwissen mit Vermutungen zu kaschieren. Eine falsche Antwort lässt bei geeigneten Bogus-Items tatsächlich kaum Zweifel offen, dass Teilnehmende unaufmerksam oder absichtlich falsch geantwortet haben: Falsch positive Klassifizierungen als unaufmerksame Personen sind also unwahrscheinlicher. Aber Vorsicht: In Item-Batterien mit einem untergemischten Bogus Item, in welchen a) alle Items die gleiche Skalenrichtung aufweisen und b) das Bogus-Item auch die richtige Antwort in dieser Richtung anbietet, können falsch negative Antworten entstehen – Nichtaufmerksamkeit bleibt dann unentdeckt, weil bei allen Items und zum Beispiel auch beim Bogus-Item «I am currently filling out a questionnaire» die «stimme voll und ganz zu»-Antwort – ohne zu lesen oder nachzudenken – ausgewählt wurde.

Teilnehmende erwarten in den meisten Umfragekontexten keine «Trick»-Items und laufen Gefahr, mit einer Zustimmungstendenz zu antworten, sobald das Item nur ausreichend schwammig formuliert ist (Meade & Craig, 2012). So könnten einige Teilnehmende dem Item «Meine Freunde vergleichen mich mit einem Pudel» tatsächlich willentlich zustimmen, weil Pudel soziale, verträgliche Tiere sind und Teilnehmende annehmen könnten, genau dies solle latent mit diesem Item «gemessen» werden. Auch hier kommt das kognitionspsychologische Thema «Sinn und Sensemaking» (Weick, 1995) zum Vorschein.  

Das Ziel von fiktiven Fragen und Bogus-Items ist es also, unaufmerksame Teilnehmende mit einer Antwort zu erwischen, die nicht möglich ist. Bei Bogus-Items (hier sind auch einfache Rechenaufgaben wie «2+3=?» beliebt) kann mit hoher Wahrscheinlichkeit davon ausgegangen werden, dass Teilnehmende, die diese nicht korrekt beantworten, zu wenig aufmerksam sind. Bei fiktiven Fragen/Items dagegen (wie jener zu den NZZ-Folios) ist es möglich, dass auch aufmerksame Personen den Check nicht bestehen. Dies kann jedoch aus Sicht der Datenqualität auch wünschenswert sein: Ist das Ziel der Befragung die Identifikation der besten Magazin-Ausgabe dieses Jahres, sollten optimalerweise nur Personen in der Stichprobe sein, die sich genügend mit dem Magazin auseinandersetzen, um dessen Ausgaben in einer Liste wiederzuerkennen. Es geht dann aber nicht nur um den Ausschluss von Unaufmerksamkeit, sondern auch von weiteren Störvariablen wie Inkompetenz, sozialer Erwünschtheit oder inhaltsunabhängiger Zustimmungstendenz / Akquieszenz (Bauer, 2000).

Der Wirkungsgrad des Einsatzes von Bogus-Items zur Erkennung von Nichtaufmerksamkeit wurde breiter diskutiert (Breitsohl and Steidelmüller, 2018; Curran, 2016; Goldsmith, 1989), es wurde aber nur eine spärliche qualitätsverbessernde Wirkung attestiert und es wurden andere Methoden, zum Beispiel das blosse Einbauen von «Weiss nicht»-Antworten, die einen veritablen Teil der unsicheren oder antwortunwilligen Personen abfangen.

Anweisungsprüfungen (IMC, IRI)

Ein weiterer Ansatz zur Überprüfung der Aufmerksamkeit von Teilnehmenden ist die Integration von Anweisungsprüfungen. Hier erhalten die Teilnehmenden eine klare Anweisung zur Beantwortung. Wer diese Anweisung nicht befolgt, weist einen ungenügenden Grad an Aufmerksamkeit auf.

Anweisungsprüfungen können in Form einer ganzen Frage («Instructional Manipulation Checks» IMC) umgesetzt werden. Diese werden auch »Screener» genannt (Berinsky et al., 2014). Ein Beispiel ist das Hinzufügen eines zusätzlichen Satzes am Ende einer Frage – eine Bemerkung, die den Befragten anweist, die Frage zu ignorieren und eine bestimmte Antwort zu geben, zum Beispiel «Bitte ignorieren Sie diese Frage und wählen Sie unten die vierte Antwort an.» (Alvarez & Li, 2021). Weitere Beispiele zeigen Abbildungen 2 und 3.

Abbildung 2: Instructional Manipulation Check mit hohem Schwierigkeitsgrad (Kung, 2018)

Abbildung 3: Instructional Manipulation Checks mit mittlerem Schwierigkeitsgrad (eigenes Beispiel)

Als zweite Form kann ein einzelnes Item innerhalb einer ansonsten inhaltlich relevanten Tabellenfrage implementiert werden («Instructed Response Items» IRI), beispielsweise als fünftes Item von acht mit dem Wortlaut «Wählen Sie in dieser Zeile ‘sehr zufrieden‘ an. (Gummer et al., 2021; DeSimone et al., 2015). Ein weiteres Beispiel zeigt Abbildung 4.

Abbildung 4: Instructed Response Item (IRI) in Zeile 6 (angelehnt an Podsakoff et al., 1990)

IMC und IRI finden in der Umfrageforschung unter anderem aufgrund der relativ einfachen Umsetzung grossen Anklang.

Die Exklusion von Teilnehmenden, welche IMCs nicht bestehen, führt dann zu höherer Konsistenz in der Datenanalyse (Oppenheimer et al., 2009). Das Exkludieren von IRI-Fällen aus dem Datenmaterial wird allerdings kontrovers diskutiert und hat nicht in allen Fällen eine höhere Datenqualität zur Folge (Gummer et al., 2021; Grezki et al., 2015; Anduiza & Galais, 2016). IRIs sind aber wie herkömmliche Methoden definitiv genauso oder teilweise sogar etwas zuverlässiger in der Lage, nicht-seriöse Teilnehmende zu identifizieren (Jones et al., 2015; Gummer et al., 2021), beispielsweise mittels Messung der Bearbeitungsdauer (Speeder) oder der Identifikation von Null-Varianz-Antwortverhalten, sogenanntem Straightlining (Meier & Gwerder, 2022).

Moderne Onlineumfragen-Systeme können bei falsch beantworteten IMC und IRI die Frage auch nochmals stellen mit dem Hinweis, dass eine unplausible Antwort gegeben wurde, und der Bitte, die Fragen und Antworten genau zu lesen. Mit dieser alternativen Strategie sollen die fehlbaren Teilnehmenden nicht mehr ausgeschlossen werden. Sie sollen ihre Antworten korrigieren. Und genau dieses erneute Stellen einer IMC, so lange, bis die Teilnehmenden diese bestehen, führt zu erhöhter Aufmerksamkeit in den Folgefragen. Daher sollte diese spezifische Variante von IMC und IRI dann auch in einer der ersten Fragen des Fragebogens umgesetzt oder alternativ vor besonders wichtigen Fragen platziert sein, deren Beantwortung besonders gewissenhaft erfolgen soll. Diese Erkenntnis wurde in weiteren Studien besonders auch für komplexe Folgefragen bestätigt (Miller & Baker-Prewitt, 2009; Hauser & Schwarz, 2015), was den Wert von Anweisungsprüfungen als «Moral Changer» unterstreicht.

Wie bei den Ernsthaftigkeitsprüfungen liegt die Herausforderung der Anweisungsprüfungen bei der Akzeptanz der Befragten. Eine oder in langen Fragebögen zwei IRIs oder IMCs werden von den meisten Teilnehmenden akzeptiert, eine zu hohe Zahl kann Befragte jedoch verärgern und deren Motivation negativ beeinflussen.

Pseudo-Fragen

Eine Alternative zu Anweisungsprüfungen stellen sogenannte «Mock Vignettes» dar, eine kurze Aufmerksamkeitsprüfung («Mock Vignette Check», MVC), die vor der eigentlichen Befragung eingefügt wird. Die Teilnehmenden werden dabei aufgefordert, einen kurzen informativen Text («Vignette») zu lesen und anschliessend einige Fragen dazu zu beantworten. Mit diesen Fragen wird geprüft, ob die Vignette aufmerksam gelesen und korrekt verstanden wurde. Teilnehmende, welche einen eingangs gestellten MVC bestehen, weisen im weiteren Fragebogenverlauf (gemessen an typischen Aufmerksamkeitsmetriken) höhere Aufmerksamkeit aus. (Kane et al., 2023). Ausserdem zeigte sich, dass die zu Beginn des Fragebogens gestellten Pseudo-Fragen keinen negativen Effekt auf das Antwortverhalten im restlichen Fragebogen aufweisen, diesen also abgesehen von den Auswirkungen höherer Aufmerksamkeit nicht beeinflussten. Eine solche «Mock Vignette» zu Beginn des Fragebogens könnte mit einer Formatübung kombiniert werden, um die Teilnehmenden auf die Fragetypen vorzubereiten. Zum Beispiel: «Diese erste Frage ist inhaltlich nicht relevant. Wir möchten Sie mit dem Ausfüllen vertraut machen und bitten Sie trotzdem, den folgenden Text genau zu lesen und die vier Fragen dazu auf der folgenden Seite korrekt zu beantworten.»

Unserer praktischen Erfahrung nach sind solche experimentell anmutenden Checks für Kunden- und Mitarbeitendenbefragungen leider nur eingeschränkt geeignet und werden von Auftraggebenden selten akzeptiert, da Teilnehmende das Gefühl haben könnten, unter einen Generalverdacht mangelnder Aufmerksamkeit gestellt worden zu sein. Gummer et al. (2021) stellen in ihrer Studie denn auch fest, dass ein nicht unerheblicher Teil der Befragten Aufmerksamkeitskontrollen als lästig (16,8%), verwirrend (10,1%), manipulierend (10,4%) oder als Kontrolle empfanden (25,0%) resp. nicht belehrt werden wollen (24,3%). Immerhin befand ein Drittel der Stichprobe (31,4%) Aufmerksamkeitskontrollen als motivierend.

Widersprüchliche Antwort-Paare/-Sets

Widersprüchliche Antworten über zwei oder mehr inhaltlich gleiche Fragen hinweg sind eine weitere Methode, um Aufmerksamkeit zu erkennen. Und sie können in der Regel bei der Betrachtung einzelner Fragebogen relativ einfach identifiziert werden. Geben Teilnehmende bei zwei Fragen, die dasselbe Konstrukt erfassen, komplett unterschiedliche Antworten, oder ist eine bestimmte Antwort-Kombination schlichtweg unmöglich (beispielsweise ein 21-jähriger Student mit 15 Jahren Berufserfahrung), kann dies ein Hinweis darauf sein, dass Befragte dem Fragebogen nicht genügend Aufmerksamkeit schenken. Wenn eine Befragung zahlreiche Tabellenfragen enthält, kann bei der ersten und bei der letzten Tabellenfrage je einmal dasselbe Item eingebaut werden (z. B. «meine Arbeitsstelle gefällt mir sehr» und «Ich bin mit meiner Arbeitsstelle sehr zufrieden.»). Es kann dann überprüft werden, ob die Antworten diametral abweichen. Solche Fälle können dann für die Analysen exkludiert werden.

Aber Achtung: Bei heiklen Themen sind auch die aufmerksamen Teilnehmenden nicht a priori willig, wahre Antworten zu geben. In einer aktuellen Online-Studie zu riskantem Cannabisgebrauch fanden sich ähnliche Werte – 45.3% der Teilnahmen wiesen inkonsistente Antworten auf (Schell et al., 2022).

Wie aber sollte nun mit widersprüchlichen Antworten als Indikator für fehlende Aufmerksamkeit verfahren werden? Geeignete Methodiken für die jeweilige Befragung könnten sein (Bauer & Johnson, 2000):

  • Nichts tun: Auch widersprüchliche Antworten werden für die Analyse verwendet. Die Anzahl gibt lediglich einen Hinweis auf die Datenqualität und relativiert die Ergebnisse und deren Interpretation im Sinne eines Konfidenzintervalls.
  • Torhüter («Gatekeeper»): Nur die erste Antwort eines Falles wird für die Analyse verwendet. Darauffolgende einzelne Antworten, welche der ersten widersprechen, werden als «missing items» umcodiert. Der Datensatz an sich fliesst mit ein.
  • Limitierter Ansatz: Es wird eine Liste von besonders wichtigen Fragen definiert. Widerspricht sich ein/e Teilnehmer/in innerhalb dieser wichtigen Fragen, werden alle Antworten der Teilnehmerin/des Teilnehmers bei diesen wichtigen Fragen als «missing items» in die Ergebnisse aufgenommen.
  • Globaler Ansatz: Sämtliche Fälle mit inkonsistenten Antworten werden aus der Analyse ausgeschlossen.
  • Ansatz der inhaltlich überwiegenden Beweislage. Der Fragebogen und die besonders wichtigen Fragen aller Befragten, welche widersprüchliche Antworten gaben, werden sorgfältig geprüft und der Fallstatus wird auf der Grundlage der «überwiegenden Beweislage» zugewiesen, die durch die Auswertung der Antworten ermittelt wird (z. B. wenn es darum geht, Fragebögen zu typisieren und einer Kategorie zuzuordnen). Alle Antworten, die dem zugewiesenen Fallstatus widersprechen, werden als «missing items» betrachtet.

Je nach verwendetem Ansatz zum Umgang mit inkonsistenten Antworten ergibt sich eine unterschiedliche Zahl von exkludierten Fällen – 33 bei «nichts tun» bis zu 1374 beim «globalen Ansatz» (Bauer & Johnson, 2000) – und es ergeben sich damit signifikant unterschiedliche Analyseergebnisse. Es ist daher von grosser Bedeutung, die gewählte Methode kritisch zu bewerten und im Auswertungsreport genauestens zu deklarieren.

Umgepolte Items

Eine Spezialform widersprüchlicher Angaben sind doppelte Items, von denen eines rotiert ist. Solche «Fallen» (wir sind wieder bei roten Heringen) müssen dann zweimal genau entgegengesetzt beantwortet werden, ansonsten wäre eine Antwort widersprüchlich. Zum Beispiel kann ein Item im ersten Teil des Fragebogens untergebracht werden, ein zweites Item dann gegen Ende, wobei typischerweise dieselbe Likert-Skala verwendet wird. Das zweite Item erfragt denselben Inhalt wie das erste in leicht veränderter Formulierung, wird aber negiert (= rotiert) formuliert. Beispielsweise kann gefragt werden: «Das Produkt gefällt mir im Allgemeinen sehr gut.» (5-er-Skala von «trifft sehr zu» bis «trifft gar nicht zu»).  Im weiteren Fragebogenverlauf könnte mit ausreichend grossem Abstand gefragt werden: «Ich finde die Produkte generell mangelhaft.» (5-er-Skala von «trifft sehr zu» bis «trifft gar nicht zu»). Konsistentes, aufmerksames Ausfüllverhalten müsste hier mindestens einigermassen diametrale Ergebnisse erzeugen. Die beiden Skalenwerte innerhalb desselben Falles dürften nach Umpolung eines der beiden Items (Gleichausrichtung) nur eine geringe Varianz aufweisen. Fälle, bei denen diese Bedingung verletzt wurde, könnten wegen Nichtaufmerksamkeit für die Datenanalyse exkludiert werden. Ein konkretes Beispiel zeigt Abbildung 5.

Abbildung 5: Erstes und drittes Item rotiert (angelehnt an Podsakoff et al., 1990)

Es ist allerdings zu bedenken, dass reverse Items unterschiedliche Bedingungen für gute und schwächere Leserinnen und Leser schaffen, da negativ formulierte Items eine höhere Sprachkompetenz und höheren kognitiven Aufwand erfordern und damit einen Bias in die Ergebnisse einsteuern können (Suárez-Alvarez et al., 2018), vor allem bei sprachlich schwächeren Zielgruppen (z. B. bei Kindern und Jugendlichen).

Offensichtliche Fragen

Eine weitere Technik zur Aufmerksamkeitsprüfung sind Fragen, die eine einzige plausible Antwort zulassen, nämlich «trifft zu». Werden solche Fragen auf einer Likert-Skala mit «trifft nicht zu» beantwortet, kann auf mangelnde Aufmerksamkeit geschlossen werden. Beispiel: «Es gibt Menschen, die eine andere Meinung haben als ich» oder «E ist ein Buchstabe». Allerdings ist eine Abstützung auf einzig diese Art von Aufmerksamkeits-Check kaum empfehlenswert und solche Fragen laufen Gefahr, als deutliche Fremdkörper wahrgenommen zu werden, weil deren Funktion von einer Vielzahl an Befragten nicht verstanden wird und sie dadurch irritierend wirken.

A Priori Fakes mit Bots

In den letzten Jahren wurde ein neues Problem erkannt, welches auf den ersten Blick aussieht wie aufmerksamkeitsloses Ausfüllen: das Einsetzen von Botnetzen (automatisierten Scripts, die Formulare ausfüllen) und dedizierte Umfrage-Bots zur Beantwortung kompletter Fragebogen, auch mit offenen Textantworten, bei welchen qualitätsmässig komplett sinnlose, willkürliche Antworten technisch abgefüllt werden. Dabei erzielen Teilnehmende im besten Fall Vergütungen für komplettierte Fragebögen, ohne dass sie selbst tatsächlich Fragen beantworten (Dupuis, 2018; Fullerton und McCullough, 2022). Gegen diese Techniken gibt es wenige wirkungsvolle Massnahmen. Das Abfragen einer anonymen «uniform identifier», einer «einzigartigen Identifikationskennung der Teilnehmenden». So kann beispielsweise in einer Single-Choice-Frage mit einigen Antwortvorgaben das Domizilland der Teilnehmenden abgefragt werden, wobei Bots dann über alle Datensätze hinweg in der Regel eine breite Varianz erzeugen, echte Teilnehmende aber nur das effektive Land auswählen, in dem sie wohnen und IN dem die Studie auch durchgeführt wird oder nach dem sie rekrutiert werden – schlichtweg deshalb, weil sie die Frage verstehen (Fullerton & McCullough, 2022). Panels verwenden auch einen Test-Retest-Mechanismus, bei dem gleiche Fragen mit zeitlich stabilen Antworterwartungen über mehrere Fragebögen hinweggestreut sind. Wenn die Antworten der einzelnen Teilnehmenden auf diese Fragen nicht genau oder akzeptabel nahe übereinstimmen, wird der entsprechende Befragte aus dem Datensatz entfernt (Fullerton et al., 2009). Auch Google ReCAPTCHA können zu Beginn eines Online-Fragebogens eingesetzt werden; diese für Menschen einfach zu lösenden kleinen Aufgaben verwenden «eine fortschrittliche Risikoanalyse-Engine und adaptive Herausforderungen, um bösartige Software von missbräuchlichen Aktivitäten auf Ihrer Website abzuhalten» (Google, 2024).

Item Response Theory

Ein elaboriertes Verfahren zur Aufmerksamkeits-Erkennung post hoc, also nach bereits erfolgter Datenerhebung, stellen auch Rasch-Personen-Fit-Indices dar. Sie bieten einen methodisch fortschrittlichen Ansatz zur Erkennung abweichender Antworten und identifizieren atypische Antwortmuster auf Personenebene, die zum Beispiel als Folge von Betrug oder fehlender Aufmerksamkeit auftreten können (Beck et al., 2019; Li & Olejnik, 1997). Dieses Verfahren ist allerdings nur anwendbar in Skalen, die nach der Item Response Theory (IRT) erstellt wurden (van den Wittenboer et al., 1997) und die eine ausreichende Länge und eine volle Range von Itemschwierigkeiten aufweisen. Für die Marktforschungspraxis sind diese Voraussetzungen im Unterschied zu psychologischen Testverfahren oder Kompetenztests oft nicht gegeben.

Guttman Errors

Guttman-Fehler, welche die Grundlage vieler nichtparametrischer Person-Fit-Statistiken bilden, eignen sich auch direkt für eine Post-hoc-Erkennung abweichender Antwortmuster: Diese treten dann auf, wenn ein Befragter ein schwieriges Item zu einem Thema richtig und danach ein leichtes Item zum selben Thema falsch beantwortet. Voraussetzung dazu sind auch hier Skalen, die Konstrukte mit mehreren Items unterschiedlicher Schwierigkeit (item difficulty) messen. Guttman-Fehler können dann gezählt oder in Relation zur Gesamtzahl der Items gesetzt werden. So können abweichende Antwortmuster in Daten mit dichotomen Antwortskalen genau identifiziert werden (Emons, 2008; Karabatsos, 2003; Meijer, 1994; Meijer, Egberink, Emons, & Sijtsma, 2008). Beck et al. (2019) zeigen auch weitere Person-Fit-Methoden wie U3 person-fit statistic, HT coefficient und standardized log likelihood auf. Explizit erwähnt seien noch Rasch-Personen-Fit-Indices. Sie bieten einen methodisch fortschrittlichen Ansatz zur Erkennung abweichender Antworten und identifizieren atypische Antwortmuster auf Personenebene, die zum Beispiel als Folge von Betrug oder fehlender Aufmerksamkeit auftreten können (Beck et al., 2019; Li & Olejnik, 1997).

Fazit

Eine proaktive Behandlung des Themas Aufmerksamkeit in Umfragen kann mit zahlreichen Methoden umgesetzt werden, womit in der Regel die Datenqualität gesteigert werden kann. Es gibt aber keine eigentlichen Standardmethoden oder klare Empfehlungen. Viel wichtiger ist es, die Methoden den Erfordernissen der einzelnen Befragung und der Zielgruppe anzupassen und – gerade wenn Meinungsforschung für Auftraggebende durchgeführt wird – die Methodenwahl transparent zu begründen und zu dokumentieren. Umfrageverzerrungen werden somit vermindert und die Validität von Studien erhöht. Eher seltener führt das Exkludieren von nicht aufmerksamen Teilnehmenden jedoch zu einer thematisch relevanten Verzerrung der Stichprobe – dieses Risiko muss von Fall zu Fall geprüft werden.

Aufmerksamkeitsprüfungen haben auch sekundäre Effekte und können aus verschiedenen Gründen die Beteiligung der Befragten erhöhen:

  • Sie können die Umfragen für Teilnehmende interessanter machen.
  • Rote Heringe oder Instructional Manipulation Checks unterbrechen die Monotonie einer Umfrage.
  • halten die Aufmerksamkeit der Befragten aufrecht,
  • Aufmerksamkeitsprüfungen machen zwar den Fragebogen etwas länger, erhöhen jedoch die Wahrscheinlichkeit, dass die Befragten jede Frage vollständig lesen und verstehen,
  • Einzelne Teilnehmende ärgern sich über «Fremdkörper» oder «Fallen».
  • Partizipanten erkennen die Checks und setzen Vertrauen in die Wichtigkeit und Professionalität der Befragung.
  • Die Datenanalyse kann nach Exklusion betroffener Datensätze zuverlässiger und ressourcenschonender sein.
  • Ein sehr hoher Anteil an unaufmerksamen Teilnehmenden weist im Pretesting auf einen langen, komplizierten, unverständlichen oder monotonen Fragebogen hin oder darauf, dass die Teilnahmemotivation in der Stichprobe nicht ausreicht – ein Thema, dem allenfalls mit der richtigen Ansprache der Teilnehmenden und mit der Kommunikation des persönlichen immateriellen Profits für die Teilnehmenden begegnet werden könnte: Eine Incentivierung mit Geld kann gefährlich sein und Aufmerksamkeitsprobleme sogar im Sinne einer Jagd auf abgeschlossene Fragebögen verschärfen.

Leiner (2019) empfiehlt generell, als wichtigstes Merkmal von Aufmerksamkeit eine angemessene Ausfülldauer des Fragebogens zu Rate zu ziehen, vor allem, wenn im Fragebogen keine Informationen nachgeschlagen werden müssen oder andere komplexe Fragen gestellt werden, die Unterbrüche generieren.

Möglicherweise können mehrere Methoden und Fragen zur Aufmerksamkeitsprüfung eingesetzt werden, die sich methodologisch ergänzen. Auch die Position von Aufmerksamkeitsfragen innerhalb des Fragebogens sollte bedacht werden. Während die Positionierung am Anfang des Fragebogens auf die Teilnehmenden eher präventive Wirkung auf die weitere Aufmerksamkeit im Fragebogen zeigt und für die Auswertungen ein Signal für eine von Anfang an mangelnde Aufmerksamkeit sein kann (z.B. bei testweise Teilnehmenden, Incentivierungsjägern, Teilnahmen aus Neugier), motivieren zwischendurch gestellte Aufmerksamkeits-Checks die Teilnehmenden und «halten sie wach». Gegen Ende der Befragung gestellte Checks dienen meist primär der Identifikation von Teilnehmenden, deren Interesse oder deren Konzentration im Fragebogenverlauf verloren gegangen ist.

Um Teilnehmende nicht zu verärgern oder als Versuchsobjekte zu deklassieren, sollten solche Items jedoch insgesamt vor allem bei fragilen Zielgruppen und allenfalls bei Personen, die nur einmal teilnehmen (z. B. Kunden, Messebesucher, etc.), zurückhaltend oder sogar nur in Pretests eingesetzt werden, um eine Kenngrösse für eine allfällige Aufmerksamkeitsproblematik zu erhalten und diese für Konfidenzintervalle der Ergebnisse der Hauptbefragung im Hinterkopf zu behalten.

Die Autoren

Raffael Meier – Mitgründer/CTO von onlineumfragen.com und Pionier der deutschsprachigen Onlineumfragetechnologie. Er befasst sich mit gesellschaftlichen, technischen und methodologischen Aspekten von Daten.

Kathrin Staub – Mitgründerin von onlineumfragen.com und Principal Consultant. Spezialisiert auf die Beratung namhafter nationaler und internationaler Unternehmen in den Bereichen Methodik und Fragebogenkonstruktion.

Nina Gwerder – ehemalige Lead Consultant bei onlineumfragen.com mit Schwerpunkten in den Themen Statistik, Datenqualität und effektive Auswertung von Onlineumfragen.


Literatur

  • Alvarez, R. M., & Li, Y. (2022). Survey Attention and Self-Reported Political Behavior, Public Opinion Quarterly, Volume 86, Issue 4, Winter 2022, Pages 793–811, https://doi.org/10.1093/poq/nfac048
  • Anduiza, Eva, & Carol Galais (2016). Answering Without Reading: IMCs and Strong Satisficing in Online Surveys. International Journal of Public Opinion Research. doi:10.1093/ijpor/edw007.
  • Aust, F., Diedenhofen, B., Ullrich, S. & Musch, J. (2013). Seriousness checks are useful to improve data validity in online research. Behavioral Research Methods, 45, S. 527-535.
  • Barge, S. & Gehlbach, H. (2012). Using the theory of satisficing to evaluate the quality of survey data. Research in Higher Education, 53(2), 182–200. doi:10 . 1007 / s11162-011-9251-2
  • Baron-Epel, O., Kaplan, G., Weinstein, R., & Green, M. S. (2010). Extreme and acquiescence bias in a bi-ethnic population. European Journal of Public Health. 20 (5): 543–548. doi:10.1093/eurpub/ckq052.
  • Bauer, E., & Johnson, T. (2000). Editing Data: What Difference Do Consistency Checks Make? American Journal of Epidemology, 151(9), S.  921-926.
  • Bauermeister, J. A., Pingel, E., Zimmerman, M., Couper, M., Carballo-Dieguez, A., & Strecher, V. J. (2012). Data quality in HIV/AIDS web-based surveys: Handling invalid and suspicious data. Field Methods, 24(3), 272– 291. doi:10.1177/1525822X12443097
  • Beach, D. A. (1989). Identifying the random responder. Journal of Psychology: Interdisciplinary and Applied, 123(1), 101-103.
  • Beck, M. F., Albano, A. D., & Smith, W. M. (2019). Person-Fit as an Index of Inattentive Responding: A Comparison of Methods Using Polytomous Survey Data. Applied psychological measurement, 43(5), 374–387. https://doi.org/10.1177/0146621618798666
  • Berinsky, A.J., Margolis, M.F., & Sances, M.W. (2014), Separating the Shirkers from the Workers? Making Sure Respondents Pay Attention on Self-Administered Surveys. American Journal of Political Science, 58: 739-753. https://doi.org/10.1111/ajps.12081
  • Berry, D. T. R., Wetter, M. W., Baer, R. A., Larsen, L., Clark, C., & Monroe, K. (1992). MMPI2 random responding indices: Validation using a self-report methodology. Psychological Assessment, 4(3), 340-345. doi:10.1037/1040-3590.4.3.340
  • Bishop, G. F., Oldendick, R. W., Tuchfarber, A. J., & Bennett, S. E. (1980). Pseudo-opinions on public affairs. Public Opinion Quarterly, 44(2), 198–209.
  • Bishop, G. F., Tuchfarber, A. J., & Oldendick, R. W. (1986). Opinions on Fictitious Issues: The Pressure to Answer Survey Questions. The Public Opinion Quarterly, 50(2), 240–250. http://www.jstor.org/stable/2748887
  • Breitsohl, H. & Steidelmüller, C. (2018). The impact of insufficient effort responding detection methods on substantive responses: Results from an experiment testing parameter invariance. Applied Psychology, 67(2), 284–308. doi:10.1111/apps.12121
  • Buchanan, T., Heffernan, T. M., Parrott, A. C., Ling, J., Rodgers, J., & Scholey, A. B. (2010). A short self-report measure of problems with executive function suitable for administration via the internet. Behavior Research Methods, 42, S. 709-714.
  • Burns, G. N., & Christiansen, N. D. (2011). Methods of Measuring Faking Behavior, Human Performance, 24:4, 358-372, DOI: 10.1080/08959285.2011.597473
  • Curran, P. G. (2016). Methods for the detection of carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4–19.
  • Delgado, K, Tristan, E., Kung, M (Mei-Chuan) & O’Connell, M. (2011). Mean score and validity differences among bogus item endorsement groups.
  • DeSimone, J. A., Harms, P. D., & DeSimone, A. J. (2015). Best practice recommendations for data screening. Journal of Organizational Behavior, 36(2), 171–181. doi:10.1002/job.1962
  • Dupuis, M., Meier, E., & Cuneo, F. (2018). Detecting computer-generated random responding in questionnaire-based data: A comparison of seven indices. Behavior Research Methods, 51(5), 2228–2237. https://doi.org/10.3758/s13428-018-1103-y
  • EMNID (1981): Die Popularität von Bundesministern – eine methodenkritische Befragung. In:EMNID-Informationen 8: 14-16
  • Emons W. H. M. (2008). Nonparametric person-fit analysis of polytomous item scores. Applied Psychological Measurement, 32, 224-247
  • Farrell, A., Danish, S., & Howard, C. (1991) Evaluation of data screening methods in surveys of adolescents’ drug use. Psychol Assess, 1991(3), S. 295-298.
  • Franzén, M. (2011). Nonattitudes / pseudo-opinions: Definitional problems, critical variables, cognitive components and solutions. (C/D Extended Essay No. 14). Retrieved from http://www.diva- portal.org/smash/get/ diva2:1032161/FULLTEXT01.pdf
  • Fullerton, S., & McCullough, T. (2023). Using quality control checks to overcome pitfalls in the collection of primary data via online platforms. Journal of Marketing Analytics, 11(4), 602–612. doi:10.1057/s41270-023-00249-z
  • Fullerton, S., D. Taylor, and J. Watson. 2009. Web-based instruction and online delivery of classes: Where are we now? American Journal of Business Education 2 (1): 91–100.
  • Gill, S. (1947). How do you stand on sin? Tide, 74(March), 72
  • Goffin, R. D., & Christinasen, N. D. (2003). Correcting personality tests for faking: A review of popular personality tests and an initial survey of researchers.International Journal of Selection and Assessment, 11: 340–344. 
  • Goldsmith, R. E. (1989). Reducing spurious response in a field survey. The Journal of Social Psychology, 129(2), 201–212. doi:10.1080/00224545.1989.9711721
  • Google (2023). reCAPTCHA protects your website from fraud and abuse without friction https://www.google.com/recaptcha/about/. Accessed 2 June 2024.
  • Greszki, R., Meyer, M., & Schoen, H. (2015). Exploring the Effects of Removing “Too Fast” Responses and Respondents from Web Surveys. Public Opinion Quarterly, 79(2), 471–503. https://doi.org/10.1093/poq/nfu058
  • Gummer, T., Rossmann, J., & Silber, H. (2021). Using Instructed Response Items as Attention Checks in Web Surveys: Properties and Implementation. Social Methods & Research, 50(1), S. 238-264.
  • Haghighat, R. (2007). The Development of the Brief Social Desirability Scale (BSDS). Europe’s Journal of Psychology, 3(4). https://doi.org/10.5964/ejop.v3i4.417
  • Hargittai, E. (2009). An update on survey measures of web-oriented digital literacy. Social Science Computer Review, 27(1), 130–137. doi:10 . 1177 / 0894439308318213
  • Hauser, D. & Schwarz, N. (2015). It’s a Trap! Instructional Manipulation Checks Prompt Systematic Thinking on ‘Tricky’ Tasks. Sage Open, 5(2), S. 1-6.
  • Ihme, J. M., Lemke, F., Lieder, K., Martin, F., Müller, J. C., & Schmidt, S. (2009). Comparison of ability tests administered online and in the laboratory. Behavior Research Methods, 41, S. 1183-1189.
  • Jones, M., House, L., & Gao, Z. (2015). Respondent Screeingin and Revealed Preference Axioms: Testing Quarantining Methods for Enhanced Data Quality in Web Panel Surveys. Public Opinion Quarterly, 79(3), S. 687-709.
  • Johnson, J. A. (2005). Ascertaining the validity of individual protocols from web-based personality inventories. Journal of Research in Personality, 39(1), 103–129. doi:10.1016/j.jrp.2004.09.009
  • Kane, J., Velez, Y., Barbas, J. (2023). Analyze the attentive and bypass bias: Mock vignette checks in survey experiments. Political Science Research and Methods, 11(2), S.293-310.
  • Karabatsos G. (2003). Comparing the aberrant response detection performance of thirty-six person-fit statistics. Applied Measurement in Education, 16, 277-298
  • Kemper, C. J., Beierlein, C., Bensch, D., Kovaleva, A., & Rammstedt, B. (2012). Eine Kurzskala zur Erfassung des Gamma-Faktors sozial erwünschten Antwortverhaltens: Die Kurzskala Soziale Erwünschtheit-Gamma (KSE-G) (GESIS Working Papers 2012|25). Köln: GESIS.
  • Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5(3), 213–236. doi:10. 1002/acp.2350050305
  • Krosnick, J. A. (1999). Survey research. Annual Review of Psychology, 50(1), 537–567. doi:10 . 1146 / annurev. psych.50.1.537
  • Krosnick, J. A., Narayan, S. S., & Smith, W. R. (1996). Satisficing in surveys: Initial evidence. In M. T. Braverman, & J. K. Slater (Eds.), Advances in Survey Research (pp. 29-44). San Fransisco: Jossey-Bass.
  • Kung, F.Y.H., Kwok, N. and Brown, D.J. (2018), Are Attention Check Questions a Threat to Scale Validity? Applied Psychology, 67: 264-283. https://doi.org/10.1111/apps.12108
  • Li, M. F., & Olejnik, S. (1997). The power of rasch person-fit statistics in detecting unusual response patterns. Applied Psychological Measurement, 21, 215–231.
  • Meade, A. W. & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17(3), 437–455. doi:10.1037/a0028085
  • Meier, R., & Gwerder, N. (2023). Dirty on the go? Data quality in online surveys between PC and mobile devices. In Swiss Insights (Hrsg.), Swiss Insights Annual Report 2023.
  • Meier, R., & Gwerder, N. (2022). Dirty Data in Online Surveys. How to improve data quality before and after the field phase. In Swiss Insights (Hrsg.), Swiss Insights Annual Report 2022 (S. 51-62).
  • Meijer R. R. (1994). The number of Guttman errors as a simple and powerful person-fit statistic. Applied Psychological Measurement, 18, 311-314
  • Meijer R. R., Egberink I. J. L., Emons W. H. M., Sijtsma K. (2008). Detection and validation of unscalable item score patterns using item response theory: An illustration with Harter’s Self-Perception Profile for children. Journal of Personality Assessment, 90, 227-238
  • Miller, J. & Baker-Prewitt, J. (2009). Beyond ‘Trapping’ the Undesirable Panelist: The Use of Red Herrings to Reduce Satisficing. Präsentiert an der CASRO Panel Quality Conference, 2. Februar 2009. New Orleans, USA.
  • Nichols, D. S., Greene, R. L., & Schmolck, P. (1989). Criteria for assessing inconsistent patterns of item endorsement on the MMPI: Rationale, development, and empirical trials. Journal of Clinical Psychology, 45(2), 239-250. doi:10.1002/1097-4679(198903)45:2<239::AIDJCLP2270450210>3.0.CO;2-1
  • Nießen, D., Partsch, M. V., Kemper, C. J., & Rammstedt, B. (2019). Social Desirability-Gamma Short Scale (KSE-G). Zusammenstellung sozialwissenschaftlicher Items und Skalen (ZIS). https://doi.org/10.6102/zis271_exz
  • Oppenheimer, D., Meyvis, T., & Davidenko, N. (2009). Instructional Manipulation Checks: Detecting Satisficing to Increase Statistical Power. Journal of Experimental Social Psychology, 45, S. 867-72.
  • Paulhus, D. L. (1984). Two-component models of socially desirable responding. Journal of Personality and Social Psychology, 46(3), 598-609.
  • Podsakoff, P.M., MacKenzie, S.B., Moorman, R.H., & Fetter, R. (1990). Transformational leader behaviors and their effects on followers› trust in leader, satisfaction, and organizational citizenship behaviors. Leadership Quarterly, 1(2), 107–142. http://doi.org/10.1016/1048-9843(90)90009-7
  • Porst, R. (2014). Fragebogen – Ein Arbeitsbuch. 4. Auflage, Wiesbaden: Springer Fachmedien.
  • Reips, U.-D. (2002). Standards for internet-based experimenting. Experimental Psychology, 49, S. 243-256.
  • Reips, U.-D. (2008). How Internet-mediated research changes science (S. 268–294). Cambridge, MA: Cambridge University Press.
  • Reips, U.-D. (2009). Internet experiments: Methods, guidelines, metadata. Human Vision and Electronic Imaging XIV, Proceedings of SPIE, 7240, 724008.
  • Reuband, Karl-Heinz (2000): „Pseudo-Opinions“ in Bevölkerungsumfragen. Wie die Bürger fiktive Politiker beurteilen. In: ZA-Informationen 46: 26-38
  • Rogers, R., Sewell, K. W., Martin, M. A., & Vitacco, M. J. (2003). Detection of feigned mental disorders: A meta-analysis of the MMPI-2 and malingering. Assessment, 10(2), 160-177. doi:10.1177/1073191103010002007
  • Schell, C., Godinho, A., & Cunningham, J. (2022). Using a consistency check during data collection to identify invalid responding in an online cannabis screening survey. BMC Medical Research methodology, 22(67).
  • Schuman, H. & Presser, S. (1980). Public opinion and public ignorance: The fine line between attitudes and nonattitudes. American Journal of Sociology, 85(5), 1214– 1225.
  • Schuman, H., & Presser, S. (1981). Questions and Answers in Attitude Surveys. New York: Academic Press.
  • Stevens, H. (2017, November 19). Catching a red herring. Chicago Tribune. https://www.chicagotribune.com/lifestyles/ct-tribu-words-work-herring-20110202-story.html
  • Suárez-Alvarez, J., Pedrosa, I., Lozano, L. M., García-Cueto, E., Cuesta, M., & Muñiz, J. (2018). Using reversed items in Likert scales: A questionable practice. Psicothema, 30(2), 149–158.
  • Ross, R.S. (2008). Popularization of ‘red herring’ by English political agitator William Cobbett. In: Comments on Etymology 38:1-2, 2008, S. 62–69.
  • Tett, R. P., & Christiansen, N. D. (2007). Personality tests at the crossroads: A reply to Morgeson, Campion, Dipboye, Hollenbeck, Murphy, and Schmitt. Personnel Psychology, 60: 267–293.
  • Tourangeau, R., Rips, L. J., & Rasinski, K. (Eds.). (2000). The psychology of survey response. Cambridge University Press. https://doi.org/10.1017/CBO9780511819322
  • Weick, K. E. (1995). Sensemaking in organizations. Thousand Oaks [u.a.] : Sage.
  • van den Wittenboer, G., Hox, J., & de Leeuw, E. (1997). Aberrant Response Patterns in Elderly Respondents: Latent Class Analysis of Respondent Scalability (pp. 155–162). Münster, Germany: Waxman.

Dirty on the go?

Datenqualität in Online-Surveys zwischen PC und Mobilgeräten

Unsere Vergleichsanalyse anonymisierter mobiler und nicht mobiler Teilnahmen einer grossen Schweizer Kundenbefragung zeigt: Mobile Antworten fallen bezüglich Datenqualität leicht ab. Straightliner und kürzere Texte sind eine Herausforderung.

Das Internet in der Tasche mit sich tragen – was vor 25 Jahren eine utopische Vorstellung war, ist heute trivial. Die Einführung des Smartphones hat unser Leben verändert, nicht zuletzt auch die Markt- und Meinungsforschung.

Mit immer besseren Internetverbindungen, grösseren Bildschirmen und einer schnellebigeren Gesellschaft mit permanenter Aufmerksamkeitsknappheit[5] stieg das Bedürfnis im letzten Jahrzehnt stark an, Umfragen auch auf Mobilgeräten anbieten und ausfüllen zu können. Diese erhöhte Nachfrage mobiler oder zumindest mobilkompatibler Umfragen schafft nicht nur neue Herausforderungen für das Design und die Handhabung von Onlineumfragen, sondern muss auch hinsichtlich Datenqualität differenziert betrachtet werden.

Anhand anonymisierter Meinungsdaten  einer Kundenbefragung eines grossen Schweizer Retailers, die 2014 lanciert wurde und seither täglich neue Rückläufe verzeichnet, analysieren wir die Entwicklung der mobilen Teilnahmen und deren Auswirkung auf die Datenqualität.

Datenqualität – Was ist das eigentlich?

70 Millionen Suchergebnisse bei Google demonstrieren die Relevanz des Begriffs “Data Quality” eindrücklich. Während im Alltag der Begriff “Datenqualität” häufig mit der Richtigkeit (Präzision) von Daten gleichgesetzt wird,

ist Datenqualität in der Markt- und Meinungsforschung komplexer. Hier stehen am Ende der Datenverarbeitung Auftraggebende oder Forschende als Consumer der Daten. Deshalb ist es besonders wichtig, zu verstehen, dass Datenqualität aus Consumer-Sicht oft  über  die Präzision von Werten hinausgeht und auch Aspekte wie beispielsweise Glaubwürdigkeit, Relevanz, Vollständigkeit, Interpretierbarkeit, Konsistenz und Zugänglichkeit von Daten für Consumer berücksichtigt[18]. Relevanz zum Beispiel umfasst, dass Daten für ihren beabsichtigten Zweck tatsächlich geeignet sind, denn eine schlechte Datenqualität kann zu fehlerhaften Entscheidungen und ineffizienten Geschäftsprozessen führen, während eine hohe Datenqualität eine fundierte Entscheidungsfindung, bessere Geschäftsprozesse und letztendlich bessere Geschäftsergebnisse unterstützt.

Datenqualität, die in der Literatur mit zahlreichen verschiedenen Modellen beschrieben wird[6], kann durch geeignete Massnahmen optimiert werden. Einerseits vor der Feldphase, mittels elaboriertem Sampling, stringenter Fragebogenkonzeption und Pretesting. Andererseits in der Analyse und der technischen Bereinigung der bereits gewonnenen Daten. Hinzu kommen Meta-Aspekte der Datenqualität wie Passung der Daten zur Forschungsfrage, Prozesstransparenz, faire Datengewinnung oder proaktiver Datenschutz, die Empowerment für Kundinnen und Kunden bewirken [10].

Muss bei mobilen Umfragen mit tieferer Datenqualität gerechnet werden?

Die spezifischen Effekte einer mobilen Umfrageteilnahme auf die Datenqualität lassen sich in zwei Bereiche gliedern:

  • Effekte, die auf die Natur des Eingabegeräts zurückzuführen sind.
  • Effekte, die auf die Situation, in der mobil teilgenommen wird, zurückzuführen sind.

Zum ersten Bereich zählt beispielsweise die kleinere Bildschirmgrösse auf Smartphones, welche die Wahrnehmung und das Verständnis der Befragung beeinflussen kann[8]. So können lange Itembatterien mit breiten Skalen auf dem Smartphone nicht immer in der gewohnten Tabellenform übersichtlich dargestellt werden. Die Darstellung erfolgt daher häufig in einer alternativen Form, z.B. eine Aufteilung auf mehrere Ratingfragen oder Drop-Down-Felder. Dies beeinflusst jedoch die Wahrnehmung der Teilnehmenden: Während das einzelne Item in einer Tabellenfrage in den direkten Kontext der Items davor und danach gesetzt wird, sind bei mehreren Einzelfragen die Inhalte der weiter zurückliegenden Fragen oft nicht mehr präsent. Gleichzeitig können Teilnehmende in der Regel die darauf folgenden Items nicht bereits einsehen, was das kognitive Editierverhalten beeinflusst[14][15]. Zudem sind Umfragen, die auf Mobilgeräten grundlegend anders dargestellt werden als auf grossen Bildschirmen, wie bei einigen Anbietern üblich, methodologisch kritisch zu betrachten, da alle Teilnehmenden möglichst gleiche Stimuli erhalten sollten. Weitere Aspekte, in diesem Bereich sind unter anderem die Navigation via Touchscreen und die allenfalls kleinere Rechenleistung[11].

Dem zweiten Bereich sind Effekte zuzuordnen,

die durch die Möglichkeit der Teilnahme “on the go” ausgelöst werden. Dazu gehören situative Einflüsse (z.B. Unterbrüche, weil man bei der Beantwortung im öffentlichen Verkehr umsteigen muss oder laute Hintergrundgeräusche die Konzentration beeinflussen) sowie intrinsische

Einflüsse, wie eine generell tiefere Aufmerksamkeit, wenn das “Scrollen” am Smartphone sich zu einer passiven Nebenbeschäftigung entwickelt[19], zum Beispiel, wenn Umfragen während anderen Tätigkeiten wie Medienkonsum, Sitzungen, Vorlesungen, an Bushaltestellen etc. ausgefüllt werden.

Die Forschung zur Datenqualität in Mobile-Surveys steckt noch immer in den Kinderschuhen. Seit 2009 wurden zwar diverse Studien zu diesem Thema veröffentlicht [1][3][8][9][13], diese zeichnen sich jedoch durch partiell widersprüchliche Ergebnisse, kleine Stichproben und teilweise klinische Settings aus. Einig geworden sind sich die Autorinnen und Autoren dabei dennoch in folgenden zwei Punkten:

  • Die Abschlussrate (“completion rate”) bei mobilen Teilnahmen ist tiefer als bei der Teilnahme über einen PC / Laptop (d.h. mehr Break-Offs) [1][3][8][9].
  • Die Bearbeitungszeit bei mobilen Teilnahmen ist höher als bei der Teilnahme über einen PC

/ Laptop[3][8].

Fallstudie: Kundenbefragung eines grossen Schweizer Retailers

Unsere Analyse erhebt erstmals a) eine durchmischte, reale Zielgruppe (Kundinnen und Kunden eines Retailers) mit b) grosser Datenmenge c) für die Schweiz und hebt sich damit deutlich von bisherigen Studien ab. Sie orientiert sich methodologisch am Vorgehen von Schlosser und Mays[13], die 2018 den Einfluss von mobilen Teilnahmen auf die Datenqualität an einer Gruppe von 820 deutschen Studierenden untersuchten.

Unsere Analyse greift auf vollständig anonymisierte Daten der Kundenbefragung eines Schweizer Retailers zurück, die 2014 in einem Unternehmensbereich lanciert und anschliessend sukzessiv auf weitere Unternehmensbereiche ausgeweitet wurde. Stand Mai 2023 lagen 345’000 Umfragerückläufe mehrsprachig (de, fr, it) schweizweit vor. Der Fragebogen enthält 6 Fragen. Darunter befinden sich eine Frage zur Weiterempfehlungsbereitschaft, eine

Tabelle mit 5 Items und elfstufiger Likert-Skala, eine Frage mit offener Textantwort und zwei Ja-Nein-Fragen. Für die Beantwortung stehen die im Internet verbreiteten Radiobuttons und Textfelder zur Verfügung. Die mittlere Bearbeitungszeit beläuft sich auf rund 2 Minuten. Es werden keine soziodemografischen Daten erhoben. Als Befragungssoftware wird die Umfrageplattform von onlineumfragen.com genutzt. Die Kundinnen und Kunden werden in einem mixed-mode Verfahren via E-Mail (ca. 95%) und SMS eingeladen (ca. 5%).

Entwicklung der Relevanz mobi- ler Teilnahmen 2014 bis 2023

In unserem Sample stieg der Anteil der mobilen Teilnahmen, gemessen über Browser Agent Strings und Bildschirmgrösse, seit 2014 stetig. Mobile Teilnahmen haben sich in der Zeit von 2014 bis 2023 mehr als verdreifacht.

Eine Abschwächung der Entwicklung in den letzten fünf bis sechs Jahren könnte mit einer Sättigung der Zielgruppe zu tun haben: Wer potenziell mobil teilnehmen möchte, verfügt nun auch über die Möglichkeit.

Bild 1: Anteil mobile Teilnahmen Kundenzufriedenheitsbefragung im Retail-Sektor, 2014 bis 2023

Auswirkungen des mobilen Modus auf die Datenqualität

Um Datenqualität in konkreten Aspekten zu messen, wurde ein Subsample aus insgesamt 46’581 aktuellen Teilnahmen herangezogen. Die Eingrenzung erfolgte nach Datum jünger als 01.01.2022. Folgende Kriterien der Datenqualität wurden untersucht:

  • Reaktionszeit zur Umfrage-Einladung
  • Bearbeitungszeit für eine Frage
  • Bearbeitungszeit ganze Umfrage
  • Abschlussrate
  • Item nonresponse
  • Straightliner
  • Extrem Response Style (ERS)
  • Länge der Antworten auf offene Fragen

Benötigen mobile Teilnehmende mehr Zeit?

Zunächst wurde die Reaktionszeit zur Umfrage-Einladung ermittelt. Sie wurde über die Differenz des Zeitstempels der Einladung zur Umfrage (Versandzeitpunkt Einladungs-E-Mail) zum Zeitstempel des Aufrufs der Umfrage (Klick auf Umfragelink) berechnet und auf Ausreisser bereinigt, indem nur Teilnahmen, die innert 7 Tagen ab Einladung erfolgten, berücksichtigt wurden. Da die Teilnehmenden auf Mobilgeräten daran gewöhnt sind, ihr Mobiltelefon ständig bei sich zu tragen und erreichbar zu sein, gehen wir davon aus, dass diese Befragten schneller reagieren als Befragte, die die Einladung über ihren PC erhalten (Hypothese 1).

Auf Mobilgeräten betrug die mittlere Reaktionszeit 13 Stunden (M=13.15; SD=25.43; nmob=23’685), auf Nichtmobilgeräten 22.75 Stunden (M=22.75; SD=34.26; npc=20’481), die Abweichung ist gemäss Welch-Test t(37137)=32.86 signifikant mit p<0,001 und die Effektstärke mit Cohen’s d=0.32 entspricht einem mittleren Effekt.

Wurden zusätzlich Teilnahmen zwischen 7 und 14 Tagen nach Einladung berücksichtigt, ergab sich mobil eine mittlere Reaktionszeit von 17.5 Stunden (M=17.53; SD=40.11; nmob=24’169), auf Nichtmobilgeräten 31 Stunden (M=31.09; SD=53.81; npc=21‘335), die Abweichung ist gemäss Welch-Test t(38947)=30.08 signifikant mit p<0,001 und die Effektstärke mit Cohen’s d=0.29 zeigt einen knapp mittleren Effekt.

Die Teilnahmen durch Personen, die Mobilgeräte für die Umfrage nutzen, erfolgen also im Mittel rund 9.6 (resp. 13.6) Stunden früher und damit deutlich näher am Zeitpunkt der Einladung (Hypothese 1 bestätigt). Dies könnte je nach Umfrage einen Einfluss auf Themen wie Erinnerungsleistung, Teilnahmemotivation oder die Emotionalität der Rückmeldungen haben.

Die mittlere Beantwortungszeit für eine Frage wurde als Differenz zwischen dem Zeitpunkt der abgeschlossenen Anzeige im Browser und dem Klicken auf den Button “Speichern – nächste Frage” bei einer Tabellenfrage bestehend aus 5 Items mit elfstufiger Likert-Skala zur Zufriedenheit bestimmter Aspekte des Einkaufserlebnisses gemessen. Die Frage wurde mobil und nicht mobil methodologisch identisch präsentiert und nur im Seitenverhältnis der Tabelle, der Breite und der Schriftgrösse im Sinne einer responsiven Darstellung mobil optimiert. Für die mobilen Teilnahmen rechnen wir mit einer erhöhten Beantwortungszeit für komplexere Tabellenfragen[4], da diese mobil schwieriger zu erfassen sind, die mobile Befragungssituation oft konzentriertes Beantworten erschwert, Fragen etwas weniger leicht zu lesen  sind  und die technische Erfassung der Antworten (Touchscreen) etwas anspruchsvoller und fehleranfälliger ist (Hypothese 2).

Das arithmetische Mittel der Bearbeitungszeit wurde auf Ausreisser bereinigt (Zeit > 10 Sekunden und < 180 Sekunden) und liegt bei den mobilen Teilnahmen bei 40 Sekunden (M=40.09; SD=23.01; nmob=20’333), bei den nicht mobilen Geräten bei 36 Sekunden (M=35.70; SD=20.53; npc=19’402).

Die Abweichung ist gemäss Welch-Test t(39555)=20.09 signifikant mit p<0,001 und  die Effektstärke mit Cohen’s d=0.2 zeigt einen kleinen, aber vorhandenen Effekt. Die Bearbeitungszeit ist auf Nichtmobilgeräten etwas geringer (Hypothese 2 bestätigt).

Die Bearbeitungszeit für die ganze Umfrage wurde aus der Differenz der Anzeige der ersten Frage am Bildschirm und des Klickens auf den Button “Speichern” bei der letzten Frage berechnet.

Weil das Ausfüllen einer Umfrage über Mobilgeräte mühsamer und störanfälliger sein kann und auch die mobile Befragungssituation in der Regel mehr Ablenkungen ausgesetzt ist, könnte die Gesamtbearbeitungszeit mobil höher ausfallen. Andererseits könnte durch genau diese situativen Faktoren die Motivation, die Umfrage elaboriert “in Ruhe” und genau auszufüllen, abgeschwächt sein, und es findet vermehrt eine schnellere, oberflächlichere kognitive Verarbeitung statt, speziell bei Fragen, die sich nicht mit dem individuellen inhaltlichen Feedback-Kern decken und eher als Ballast empfunden werden. Daher vermuten wir in Abwägung dieser Überlegung für die mobilen Teilnahmen eine etwas kürzere Gesamtbearbeitungszeit (Hypothese 3).

Das arithmetische Mittel der Gesamtbearbeitungszeit wurde auf Ausreisser bereinigt (Zeit > 10 Sekunden und < 300 Sekunden) und liegt bei den mobilen Teilnahmen bei 118 Sekunden  (M=118.17;  SD=63.68;  nmob=17’435),  bei den nicht mobilen Geräten bei 116 Sekunden (M=115.73; SD=65.40; npc=16’915).

Die Abweichung ist gemäss Welch-Test t(34237)=3.50 signifikant mit p<0,001 und die Effektstärke mit Cohen’s d=0.038 zeigt einen sehr kleinen Effekt. Die Bearbeitungszeit ist auf Mobilgeräten somit minimal länger.

Ein spannendes Bild zeigt sich bei einer weniger  starken  Bereinigung von Ausreissern (Zeit > 10 Sekunden und < 3600 Sekunden). Dann liegt die Gesamtbearbeitungszeit bei den mobilen Teilnahmen bei 173 Sekunden (M=172.50; SD=237.03; nmob=19’619), bei den nicht mobilen Geräten bei 185 Sekunden (M=184.69; SD=256.90; npc=19’518). Diese Abweichung ist gemäss Welch-Test t(38851)=4.88 signifikant mit p<0,001 und die Effektstärke mit Cohen’s d=0.05 zeigt einen kleinen Effekt, aber nun dauern die PC-Teilnahmen länger. Dies könnte damit zusammenhängen, dass es auf PCs eine höhere Anzahl an Teilnehmenden gibt, die die Umfrage unterbrechen und nach einer Pause (z.B. Mittagspause, Telefongespräch, etc.) fortsetzen. Damit ergeben sich schnell sehr lange (aber nicht andauernd von Aktivität geprägte) Bearbeitungszeiten. Unter Ausschluss von Gesamtbearbeitungszeiten über 5 Minuten sind mobile Teilnahmen also geringfügig langsamer und weisen weniger Pausen auf (Hypothese 3 teilweise abgelehnt). Weshalb bei Einschluss von Gesamtbearbeitungszeiten bis zu einer Stunde die PC-Teilnahmen länger dauern, müsste weiter untersucht werden und könnte auch mit einem höheren Anteil an älteren und weniger IT-affinen Personen in der PC-Gruppe zusammenhängen, sowie auch damit, dass am PC generell etwas längere Texte bei Textantworten erfasst werden – jedoch werden diese oft auch schneller getippt (siehe Hypothese 8).

Bild 2: Reaktionszeit (RZ), Beantwortungszeit Tabellenfrage (BZ Frage) sowie Beantwortungszeit Gesamter Fragebogen (BZ Gesamt)

Brechen mobile Teilnehmende häufiger ab?

Weiter wurde die Abschlussrate berechnet. Sie bezeichnet die Anzahl der Teilnehmenden, die den Fragebogen bis zum Schluss ausgefüllt haben (letzte Frage wurde beantwortet).

Da das Ausfüllen der Umfrage über mobile Geräte weniger bequem sein kann, in “mobilen Situationen” oftmals vermehrt Ablenkungen auftreten und eine Umfrage auch nebenbei beantwortet werden könnte[1][3][8], sollte die Abbruchquote in der Mobil-Gruppe höher sein als in der PC-Gruppe (Hypothese 4).

Auf Mobilgeräten betrug mit einer Stichprobengrösse von nmob=24’613 die Complete-Rate 82.3% (ncomp_mob=20’259), sowie mit npc=21’968 auf Nichtmobilgeräten 89.6% (ncomp_pc=19’679). Die Abweichung hat ein Odds Ratio[16] von 0.5412 mit p<0,001 (entspricht Cohen’s d von rund 0.33 als mittlerer Effekt[2]), der Unterschied ist gemäss Fisher‘s Exact Test signifikant mit p<0,001. Die Abschlussrate ist also auf Mobilgeräten rund 7,3 Prozentpunkte tiefer. Umgekehrt betrachtet wurde eine Abbruchquote (Break-Off Rate) von mobil 17.7% gegenüber nicht mobil 10.4% beobachtet. Dies entspricht einer doch deutlichen Erhöhung um zwei Drittel (Hypothese 4 bestätigt).

Bild 3: Abbruchrate Mobil vs. PC

Antworten mobile Teilnehmende weniger aufmerksam?

Der Begriff Item Non-Response beschreibt das Nichtbeantworten von Fragen, oder – bei Pflichtfragen, die bei Auslassen nochmals gestellt werden wie in unserem Fragebogen – die Auswahl einer Ausweichkategorie wie zum Beispiel “weiss nicht” oder “keine Antwort” bei Single- und Multiple-Choice-Fragen oder Tabellen mit Likert-Skalen. Untersucht haben wir dazu die im Fragebogen enthaltene Tabellenfrage mit 5 Items/Zeilen, die eine elfstufige Likert-Skala von höchst zufrieden bis höchst unzufrieden sowie die Ausweichkategorie “nicht beurteilbar” anbietet. Unsere Berechnung zeigt, wie oft die Ausweichkategorie ausgewählt wurde. Aus denselben  Gründen  wie  bei  Hypothese 4 vermuten wir, dass die Häufigkeit von Item Non-Response mobil höher ist als am PC (Hypothese 5). Limitierend für diese Studie ist anzumerken, dass Pflichtfragen eingesetzt wurden und daher das Kriterium “Item Non-Response” keine eigentlichen Nicht-Antworten erfasst, sondern lediglich die Nutzung der Ausweichkategorie, und diese zudem mit “nicht beurteilbar” statt typischerweise “weiss nicht/ keine Antwort” beschriftet ist.

Auf Mobilgeräten betrug mit einer Gesamtantwortanzahl  von  nmob=107’131  der  Anteil an “nicht beurteilbar”-Antworten 3.39% (nw_mob=3’626), auf Nichtmobilgeräten mit npc=101’225 Antworten 4.48% (nw_pc=4’535).

Diese Abweichung hat ein Odds Ratio[16] von 1.3385 mit p<0,001 (entspricht Cohen’s  d  von 0.16 als schwacher Effekt[2]), der Unterschied ist gemäss Fisher‘s Exact Test  signifikant mit p<0,001. Der Prozentsatz an “nicht beurteilbar”-Antworten ist entgegen unserer Vermutung auf Mobilgeräten damit um rund einen Viertel tiefer (absolut 1.09%). Die Hypothese 5 wird damit vorläufig abgelehnt.

Dies könnte auf eine höhere Datenqualität hinweisen, könnte aber auch daran liegen, dass die Ausweichkategorie mobil auf Grund des kleinen Bildschirms der Position ganz rechts als marginal wahrgenommen wird, oder dass Teilnehmende auf Mobilgeräten zu bequem sind, die vorhandene Ausweichkategorie überhaupt erst auszuwählen, und daher sogenannte Trash-Antworten hinterlegen und die Ausweichkategorie schlichtweg nicht akkurat benutzen. Zum Beispiel, indem eine Spalte mit immer gleichen Antworten ausgewählt wird (“herunterkreuzeln” ohne nachzudenken).

Um diese Art der Verschmutzung genauer zu untersuchen, wurden nachfolgend auch einige Typen von Straightlining untersucht. Es handelt sich dabei um ein Null-Varianz-Antwortverhalten, bei dem ein immer gleicher Skalenpunkt unabhängig von der Skalenbreite, -ausrichtung und Frageformulierung für alle Zeilen einer Skalentabelle gewählt wird, was häufig bei unmotivierten Teilnehmenden auftritt[7]. Straightlining kann unter gewissen Umständen dennoch valide sein, zum Beispiel wenn eine Item-Batterie eine hohe interne Konsistenz aufweist und alle Items in dieselbe Richtung formuliert sind[12]. Bei unserem Vergleich zwischen mobilen und nicht mobilen Teilnahmen ist dies besonders spannend, da in beiden Gruppen die Zahl der validen Straightliner konstant sein müsste (da sich die eigentliche Meinung, auch wenn sie über die 5 Items hinweg einheitlich ist, von mobil und nicht mobil teilnehmenden Personen bei so grossen Stichproben nicht unterscheiden dürfte) und lediglich die Zahl der auf Grund der Geräteverschiedenheit unterschiedlich agierenden Teilnehmenden, also die nicht validen Straightliner, variieren dürfte. Dieses sozusagen geräteinduzierte Straightlining stellt eine Datenverschmutzung dar.

Wir vermuten, dass mobile Teilnehmende häufiger Straightlining aufweisen als Teilnehmende am PC (Hypothese 6). Auf Mobilgeräten (Stichprobengrösse von nmob=21’500) betrug der Anteil an Teilnehmenden mit Straightlining 35.47% (nst_ mob=7627), auf Nichtmobilgeräten (Stichprobengrösse mit npc=20’252) 31.19% (nst_pc=6316), diese Abweichung hat ein Odds Ratio[16] von 1.2131 mit p<0,001 (entspricht Cohen’s d von rund 0.10 als schwacher Effekt[2]), der Unterschied ist gemäss Fisher‘s Exact Test mit p<0,001 signifikant. Straightlining ist damit bei Mobilgeräten etwas häufiger problematisch, insbesondere, wenn man davon ausgeht, dass valides Straightlining (bewusstes, elaboriertes Entscheiden für immer dieselbe Skalenausprägung in allen Zeilen der Tabellenfragen) bei beiden Vergleichsgruppen theoretisch gleich häufig sein müsste. Eine allfällig doch vorhandene Differenz müsste demnach ausschliesslich den Anteil “verschmutzter Daten” auf Grund von demotivational bedingtem Straightlining widerspiegeln. Damit dürfte der tatsächliche Effekt grösser sein als der gemessene Effekt. Beispielsweise würden nach Abzug von angenommen 30% validen Straightliner für die nicht validen Straightliner mobil 5.47% und nicht mobil 1.19% “übrig bleiben”, also schon fast 5 mal mehr (Hypothese 6 bestätigt).

Der Begriff Extreme Response Style (ERS) bezeichnet ein spezifisches Antwortverhalten, bei dem in Tabellenfragen mit Likert-Skalen die Extrempunkte übermässig oder ausschliesslich genutzt werden. Wir klassifizieren für diese Studie Teilnehmende, die ausschliesslich Skalenendpunkte genutzt haben und mindestens eine Zeile mit einer diametral anders gepolten Antwort ausgewählt haben (z.b. 4 mal “höchst zufrieden” und 1 mal “höchst unzufrieden”, 3 mal “höchst zufrieden” und 2 mal “höchst unzufrieden”, 2 mal “höchst zufrieden” und 3 mal “höchst unzufrieden” etc.).

Wir vermuten, dass ESR auf Grund der Seltenheit des Phänomens bei mobilen Teilnahmen nicht signifikant häufiger auftritt als am PC (Hypothese 7). Auf Mobilgeräten (Stichprobengrösse von nmob=21’500) betrug der Anteil an Teilnehmenden mit ESR 0.35% (nesr_mob=75), auf Nichtmobilgeräten (Stichprobengrösse mit npc=20’252) 0.38% (nesr_pc=77), diese Abweichung hat ein Odds Ratio[16] von 1.3993 mit p=0,62, der Unterschied ist gemäss Fisher‘s Exact Test nicht signifikant. Es gibt damit keinen signifikanten (allenfalls nur zufälligen) Unterschied in der Häufigkeit von Extreme Response Style (ESR) zwischen Mobil- und Nichtmobilgeräten (Hypothese 7 bestätigt).

Sind mobile Textantworten kürzer?

Die Länge der Textantworten auf offene Fragen kann ebenfalls ein Qualitätskriterium sein, weil durch kürzere Antworten oft weniger substanzielle oder ungenauere Aussagen für Auftraggebende herausgearbeitet werden können. Bei mobilen Teilnahmen gehen wir aufgrund der umständlicheren Eingabetechnologie, der eingeschränkten Platzverhältnisse und der mobilen Befragungssituation, die weniger elaborierte und zeitlich limitierte Reflexion begünstigen, von deutlich kürzeren Eingaben aus (Hypothese 8). Dies wurde bereits von Mavletova[9] sowie Toepoel and Lugtig[17] berichtet.

Das  ausreisserbereinigte  arithmetische  Mittel der Textlängen grösser als 0 und kleiner als 500 Zeichen auf die Frage “Was (…)  hat  Sie am meisten gefreut (…) oder verärgert?” liegt bei den mobilen Teilnahmen bei 71.57 Zeichen (M=71.57; SD=78.20; nmob=16’156), bei den nicht mobilen Geräten bei 100.95 Zeichen (M=100.95; SD=97.34; nmob=15’427).

Die Abweichung ist gemäss Welch-Test t(29572)=29.48 signifikant mit p<0,001 und  die Effektstärke mit Cohen’s d=0.33 zeigt einen mittleren Effekt. Die Teilnehmenden, die nicht mobil geantwortet haben, hinterlegten also deutlich längere Texte (Hypothese 8 bestätigt).

Bild 4: Arithmetisches Mittel (ausreisserbereinigt) Länge Textantworten Mobil vs. PC

Tabelle 1: Zusammenfassung der Ergebnisse und Effektstärke

Fazit und Empfehlungen für die Praxis

Datenqualität in Onlineumfragen wurde im Vergleich zwischen mobilen und nicht mobilen Teilnahmen bisher wenig untersucht, wobei Ergebnisse vorangehender Studien mit einem erstmals sehr grossen Sample aus einer aktuellen Schweizer Kundenbefragung in einer realen für die Marktforschung relevanten Zielgruppe im Retail-Sektor weitgehend bestätigt werden.

Mobile Teilnahmen zeichnen sich in der vorliegenden Untersuchung im Unterschied zu nicht mobilen Teilnahmen aus durch…

  • eine erhöhte Abbruchrate (=tiefere Abschlussrate),
  • eine höhere Datenverschmutzung durch nicht valides Straightlining
  • deutlich kürzere offene Textantworten mit möglicherweise weniger substanziellen oder detaillierten Aussagen,
  • eine schnellere Reaktionszeit auf Umfrageeinladungen,
  • etwas weniger häufige Auswahl der Ausweichkategorie “nicht beurteilbar” in Likert-Skalen (was in Bezug auf Datenqualität unklar ist, da Teilnehmende unter Umständen mobil vorziehen, Trash-Antworten zu hinterlegen, anstatt akkurat die Ausweichkategorie zu benutzen, oder diese technisch auf Mobilgeräten zu wenig salient platziert ist)
  • uneindeutige Ergebnisse zur Antwortdauer auf einzelne Fragen und des gesamten Fragebogens, wobei auf nicht mobilen Geräten mehr Pausen gemacht werden.

Grössere Unterschiede zwischen mobilen und nicht mobilen Teilnahmen bezüglich Datenqualität sind mit zunehmender Verbreitung technisch hochstehender Smartphones und Tablets und responsiven Fragebögen grundsätzlich nicht zu erwarten, da die noch vor wenigen Jahren beschriebenen Eingabehürden (schlechte Prozessorgeschwindigkeit, sehr kleine Screens, Usability, mangelhafte Netze[11]) weitgehend aus dem Weg geräumt wurden.

Eine zentrale Ausnahme ist die zu erwartende geringere Textmenge und die damit möglicherweise weniger elaborierten und ausführlichen Angaben bei Fragen mit offenen Textfeldern, die gerade bei Fragebögen mit einer gewissen qualitativen Orientierung die Datenqualität ganz wesentlich beeinträchtigen können.

Eine in mobilen Teilnahmen erhöhte Zahl an Straightliner – wie in dieser Studie gezeigt – kann durch ausgeklügelte Methoden[7][10] auch nachträglich in Survey Daten bereinigt werden.

Zusammenfassend empfehlen wir, obenstehende Implikationen für zukünftige geplante Umfragen regelmässig zu reflektieren sowie potenzielle Vor- und Nachteile transparent zu kommunizieren. Darüber hinaus empfehlen wir für alle Onlineumfragen intensives Pretesting in gemischten Zielgruppen (mobil und nicht mobil), eine entsprechende und gezielte Analyse der Pretest-Daten vor Feldstart auf für das Projekt wesentliche und in diesem Artikel beschriebene Parameter hin sowie das vorsorgliche Einbinden fachlicher Beratung durch Experten, gerade bei sensitiven Projekten.

Die Autoren

Raffael Meier, MA, MSc – Mitgründer/CTO von onlineumfragen.com und Pionier der deutschsprachigen Onlineumfragetechnologie. Er befasst sich mit gesellschaftlichen und methodologischen Aspekten von Daten und berät Kundinnen und Kunden mit dem Ziel «Empowerment».

Nina Gwerder, MA – Lead Consultant bei onlineumfragen.com und spezialisiert auf die Beratung namhafter nationaler und internationaler Unternehmen rund um das Thema Onlineumfragen und deren effektive Auswertung.

Literatur

  1. Bosnjak, M., Poggio, T., Becker, K.R., Funke, F., Wachenfeld, A., & Fischer, B. (2013). Online survey participation via mobile devices. Con- ference Paper, The American Associationfor Public Opinion Research (AAPOR) 68th Annual Conference, 2013, Boston, MA.
  2. Borenstein, M., Hedges, L.V., Higgins, J.P.T., & Rothstein, H.R. (2009). Converting Among Effect Sizes. In Introduction to Meta-Analysis (eds M. Borenstein, L.V. Hedges, J.P.T. Higgins and H.R. Rothstein).
  3. de Brujine, M., & Wijbant, A. (2013) Com- paring survey results obtained via mobile devices and computers: An experiment with a mobile web survey on a heterogeneous group of mobile devices versus a computer- assisted web survey. Social Science Compu- ter Review, 31, S.482-504.
  4. Couper, M. P., & Peterson, G. (2016). Why do web surveys take longer on smartpho- nes? Social Science Computer Review. First published on February 11, 2016. doi:10.1177/0894439316629932
  5. Franck, G. (1998). Ökonomie der Aufmerk- samkeit. Ein Entwurf. Dtv, München 2007, ISBN 978-3-423-34401-2.
  6. Haug, A. (2021). Understanding the diffe- rences across data quality classifications: a literature review and guidelines for future research. Industrial Management and Data Systems, 121(12), 2651–2671. https://doi. org/10.1108/IMDS-12-2020-0756
  7. Jandura, O. (2018). Fake Data? Zur Trennung von sauberen und verschmutzten Daten bei selbstadministrierten Befragungsmodi. In Rössler P. & Rossman, C. (Hrsg.), Kumulierte Evidenzen. Wiesbaden: Springer VS, S. 207-223.
  8. Mavletova, A. (2013). Data Quality in PC and mobile web surveys. Social Science Compu- ter Review, 31, S.725-743.
  9. Mavletova, A., & Couper, M. P. (2015). A meta-analysis of breakoff rates in mobile web sur-veys. In D. Toninelli, R. Pinter, & P. de Pedraza (Eds.), Mobile research methods: Opportunities and challenges of mobile re- search methodologies (pp. 81–98). London, England: Ubiquity Press.
  10. Meier, R., & Gwerder, N. (2022). Dirty Data in Online Surveys. Wie Datenqualität vor und nach der Feldphase verbessert werden kann. In Swiss Data Insights Association (Hrsg.), Swiss Insights Report 2022. Swiss Insights. https://swiss-insights.ch/wp-content/ uploads/2023/01/Annual-Report-2022-klein. pdf
  11. Peytchev, A., & Hill, C.A. (2010). Experiments in mobile web survey design. Similarities to other modes and unique considerations. So- cial Science Computer Review, 28, S.319-355.
  12. Reunig, K., & Plutzer E. (2020). Valid vs. Invalid Straightlining: The Complex Relation- ship Between Straightlining and Data Quality. Survey Research Methods, 14(5), S.439-459
  13. Schlosser, S., & Mays, A. (2018). Mobile and Dirty: Does Using Mobile Devices Affect the Data Quality and the Response Process of Online Surveys?, Social Science Computer Review, 36(2), S.212-230. DOI: 10.1177/0894439317698437
  14. Schwarz, N. (2007). Cognitive aspects of sur- vey methodology. Appl. Cognit. Psychol., 21: 277-287. https://doi.org/10.1002/acp.1340
  15. Schwarz, N. (1999). Self-reports: How the questions shape the answers. American Psychologist, 54(2), 93–105. https://doi. org/10.1037/0003-066X.54.2.93
  16. Sheskin, DJ (2004). Handbook of parametric and nonparametric statistical procedures. 3rd ed. Boca Raton: Chapman & Hall /CRC.
  17. Toepoel, V., & Lugtig, P. (2014). What hap- pens if you offer a mobile option to your web panel? Evidence from a probability-based panel of internet users. Social Science Computer Review, 32, 544–560.
  18. Wang, R.Y., & Strong, D.M. (1996). Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems, 12(4), S.5-33.
  19. Wells, T., Bailey, J.T., & Link, M.W. (2014). Comparison of smartphone and online computer survey administration. Social Science Computer Review, 32, S.238-255.

Offene Fragen – ist es den «Aufwand» wert?

Jeder der schonmal einen Fragebogen verfasst hat, stand schon vor der Herausforderung: «Welchen Fragetyp nehme ich am besten?» Wenn man einen Fragebogen verfasst, ist nicht nur der Inhalt der gestellten Fragen von enormer Bedeutung, auch der Fragetyp spielt eine wichtige Rolle. Die Forschung der Kognitionspsychologie hat verdeutlicht, dass die Entscheidung für eine geschlossene oder offene Frage das Ergebnis erheblich beeinflusst. Nun stellt sich die Frage, welche dieser Fragetypen man denn am besten verwendet, um die bestmöglichen Ergebnisse aus der Befragung zu bekommen. Tatsächlich ist diese Frage so alt wie Umfragenforschung selbst und bis heute bleibt sie ohne richtige Lösung. Die kognitive Fähigkeit, die bei offenen Fragen verlangt wird, unterscheidet sich äusserst von der, die bei geschlossenen Fragen verlangt wird. Bei offenen Fragen muss der Befragte den Rahmen für die Antwort selbst schätzen, während sich bei geschlossenen Fragen der Rahmen ableiten lässt (Porst, 2014).

Offene Fragen

Bei offenen Fragen ist ein eindeutiger Stimulus durch den Fragetext vorgegeben, jedoch keine Antworten. Die Befragten sind völlig frei in ihrer Formulierung und wie weit sie für die Antwort ausholen möchten (Reinders, 2011) . Da dieser Fragetyp mehr Zeit beansprucht, sollte man ihn nicht zu häufig verwenden, weil das Auswirkungen auf die Motivation hat, den Fragebogen weiter auszufüllen. Auf der anderen Seite kann eine offene Frage die Motivation aber auch steigern, weil man sich einfach mal alles „von der Seele“ schreiben kann. Offene Fragen werden insbesondere deshalb von den Personen ausgefüllt, die ein hohes Interesse an der Befragung haben (Föhl und Friedrich, 2022).

Der Aufwand der Auswertung ist um einiges höher als bei geschlossenen Fragen und ein Vergleich der Antworten war lange Zeit nur schwer machbar. Mittlerweile gibt es hierfür sehr nützliche Tools, die eine Auswertung enorm erleichtern und sehr wertvolle Ergebnisse liefern.

Die Fragen geben durch einen Antwortkasten unter der Frage vor, wo die Antwort eingetragen werden soll. Durch die Vorgabe von mehreren Textfeldern kann eine Antwort schon vorstrukturiert werden. Wenn man zum Beispiel nach drei Eigenschaften zu etwas fragt, kann man drei kleinere Textfelder vorgeben und gibt dem Befragten eben diese gewisse Struktur (Föhl und Friedrich, 2022). Dabei hängt die Qualität dieser Antworten enorm von der Verbalisierungsfähigkeit der befragten Person ab. Dies verlangt eine höhere kognitive Beanspruchung an den Befragten (Porst, 2014).

Bei offenen Fragen ist es wichtig darauf zu achten, dass der Befragte genau versteht, was in der Antwort von ihm erwartet wird. Dabei ist nicht nur gemeint, welchen Rahmen die Antwort haben soll, sondern auch, wie Umfangreich geantwortet werden soll. Hier ist es Sinnvoll mit Hinweisen wie „nur Stichwörter“ oder „eine kurze Beschreibung“ zu arbeiten (Menold und Züll, 2019).

Häufig lohnen sich offene Fragen als letzte Frage in einem Fragebogen. Oft haben die Befragten am Ende noch wichtige, kritische oder auch positive Anmerkungen bezüglich des Fragebogens oder zum Thema der Befragung. Hierbei ist es wichtig dem Befragten das Gefühl zu vermitteln: «Ihre Meinung zählt! ».

Auch wenn es viel Arbeit scheint, jede Antwort zu einer offenen Frage durchzulesen, ist dies extrem wichtig, um das eigene Produkt, den eigenen Service oder je nachdem um was es in der Umfrage ging, voranzutreiben. Hier offenbaren sich oft Erfahrungen oder Meinungen, die alleine durch geschlossene Fragen, niemals ans Licht gekommen wären. Und auch wenn Ihnen eine Auswertung aller Antworten zu mühsam scheint, können Sie sich einfach die Ihrer Ansicht nach wichtigsten Zitate heraussuchen, und diese in Ihrem Ergebnisbericht vorstellen. Wie Sie die Zitate kostenfrei aus unserem Tool herunterladen können, erfahren Sie unter dem Punkt «Auswertungsansätze für offene Fragen».

Beispiel einer offenen Frage in unserem Tool.

Wie erstellt man eine offene Frage mit unserem Tool?

Der erste Schritt eine offene Frage in unserem Tool zu erstellen, ist zunächst eine neue Frage zu erstellen.

Als nächstes geben Sie Ihre Frage in das obige Feld ein und wählen den Antworttyp «offenes Textfeld» aus.

Am Schluss sollte Ihre Frage dann so aussehen:

Halboffene Fragen

Bei halboffenen Fragen werden die Merkmale offener und geschlossener Fragen miteinander verknüpft. Das heisst, dass neben den vorgegebenen Antwortkategorien, mindestens ein Feld für eine freie Antwortmöglichkeit ergänzt wird. Diese wird beispielsweise oft «Sonstiges: » oder «Anderes: » genannt (Reinders, 2022). Findet der Befragte sich also in keiner der vorgegeben Antwortmöglichkeiten wieder, beantwortet er diese Frage bei der freien Antwortmöglichkeit wie eine Offene. Dieser Fragetyp eignet sich immer dann gut, wenn das tatsächliche Universum möglicher Antworten zwar abgeschätzt werden kann, aber nicht definitiv bestimmbar ist. Eine halboffene Frage trägt dazu bei, die Motivation des Befragten aufrecht zu erhalten, da man nicht das Gefühl bekommt, man passe nicht in die Zielgruppe (Porst, 2014).

Wie erstellt man eine halboffene Frage mit unserem Tool?

Auch hier muss zunächst eine neue Frage erstellt werden. Dann wird der Antworttyp «Single-/Multiple-Choice/Dropdown» angewählt und die Frage ins obige Feld eingegeben.

Im nächsten Schritt werden die einzelnen Antwortoptionen erfasst und die Antwortoption mit offenem Textfeld. Das macht man indem man nach der Option, in diesem Beispiel «Andere, und zwar:», den Code «!!TEXT» hinten anstellt.

Am Ende sollte Ihre Frage dann so aussehen:

Auswertungsansätze für offene Fragen

Offene Fragen wurde lange gemieden, da die gesamte Datenmenge erst aufwendig codiert werden muss, bevor man sie Auswerten kann (Menold und Züll, 2019). Dies führte dazu, dass die Antworten zwar erhoben wurden aber nur ein paar wenige interessante Zitate beachtet wurden. Im Folgenden werden einige Analyse Ansätze vorgestellt die das Auswerten von offenen Fragen erleichtern und wie Sie aus allen Antworten etwas herausholen können. So können Sie den Herausforderungen offener Fragen Rechnung tragen und dennoch von deren grossen Mehrwert profitieren.

Zitate aus unserem Tool herunterladen

Sie können ganz einfach und kostenfrei die offenen Antworten der Befragten direkt aus dem Tool herunterladen und für Ihren eigenen Ergebnisreport verwenden. Diese Funktion finden Sie unter dem Menüpunkt «Auswertung».

Qualitative Inhaltsanalyse

Bei der qualitativen Inhaltsanalyse handelt es sich um eine klassische Auswertungsmethode. Hierbei werden die offenen Antworten durch einen oder mehrere Codierer, nach der Vorgabe eines Kategorieschemas, codiert. Jede Kategorie dieses Schemas beinhaltet einen Bedeutungsaspekt des zu codierenden Materials. Dieser wird durch Beispiele aus dem Datenmaterial beschrieben (Menold und Züll, 2019).

Das Kategorienschema kann entweder deduktiv, also theoriegeleitet oder induktiv, also aus dem erhobenen Text heraus, erfolgen.  Beim Erstellen des Kategorieschemas sollte darauf geachtet werden, dass die Kategorien mit den Zielen der Forschungsfrage zusammenpassen, dass sie klar voneinander getrennt sind und dass sie klar eindeutig sind. Nachdem man das Schema erstellt hat, folgt eine erste Probecodierung nach der das Schema, falls nötig, nochmal angepasst werden kann (Menold und Züll, 2019).

Nachdem die Codierung durchgeführt wurde, muss dessen Reliabilität geprüft werden. Hierzu wird eine Stichprobe des Datenmaterials von einem zweiten Codierer codiert und das Reliabilitätsmass gemessen. Hierfür gibt es verschiedene Masse, beispielsweise die Verhältnismasse, Cohen’s Kappa, Scott’s Pi oder Krippendorf ’s Alpha (Menold und Züll, 2019).

Dieses Mass wird zur Aussage über die Qualität der Codierung genutzt. Weisst die Codierung eine geringe Reliabilität auf, muss das Kategorienschema neu überarbeitet werden und die Codierung nochmal durchgeführt werden. Deshalb empfiehlt es sich, die Reliabilitätsmessung vorzunehmen, bevor die gesamte Datenmenge codiert wird (Menold und Züll, 2019). Cohen’s Kappa gilt als die statistische Methode, die bei Auswertungen von Übereinstimmungen zwischen den verschiedenen Codierern, am meisten genutzt wird. Es misst den Anteil der rein zufallskorrigierten Übereinstimmungen der Codierer (Grouven et al, 2007).

Qualitative Inhaltsanalyse in unserem Tool

In unserem Tool ist es durch eine Investition von 1490 Euro im Jahr möglich, eine qualitative Inhaltsanalyse von unseren geschulten Mitarbeiter durchführen zu lassen. Hier werden die Antworten der Befragten durch uns codiert und für Sie ausgewertet. Die Ergebnisse können Sie dann beispielsweise an einem Balkendiagramm ablesen. Sollten Sie Interesse an diesem Auswertungsverfahren haben, kommen Sie gerne auf uns zu. Ein Anruf oder eine Mail genügt und wir unterstützen Sie dabei, die bestmöglichen Ergebnisse aus Ihrer Umfrage herauszuholen.

Computergestützte Inhaltsanalyse

Bei der computergestützten Inhaltsanalyse basiert die Codierung auf einem inhaltsanalytischen Diktionär/Wörterbuch. Hier werden spezielle Computerprogramme für die Codierung herangezogen. Dieses Wörterbuch enthält Codierregeln in Form von Wortlisten und entspricht dem Kategorieschema der qualitativen Inhaltsanalyse. Hierbei werden Phrasen und Wörter, die als eindeutige Indikatoren für eine Kategorie gelten, definiert.

Das Programm gibt diesen Wörtern und Phrasen dann einen Code. Um die Auswertung einfacher zu gestalten, sollten positive und negative Einstellungen getrennt abgefragt werden. Auch hier wird eine Stichprobe der Datenmenge von menschlicher Hand codiert und mit dem Programm verglichen. Der Nachteil dieser Methode ist allerdings, dass das Computerprogramm nicht in der Lage ist, mehrdeutige oder aus dem Kontext gerissene Begriffe zu erkennen (Menold und Züll, 2019).

Sonstige Ansätze

Es gibt bereits versuche, Codierungen mit halbautomatischen Verfahren durchzuführen. Giorgetti und Sebastiani haben hierzu das «supervised machine learning» entworfen. Dieses Programm lernt auf Basis von Textbeispielen die per Hand codiert wurden und kann dann andere Texte, auf Basis dieses Beispiels, codieren (Menold und Züll, 2019). Des weiteren kann man auch sogenannte Wordclouds, Management Summaries oder informelle Auswertungen vornehmen.

Fazit

Zusammenfassend lässt sich sagen, dass es keine Antwort darauf gibt, welcher Fragetyp am besten ist. Bei der Entscheidung ist es natürlich hilfreich die oben aufgelisteten Informationen in Betracht zu ziehen.

Geschlossene Frage sollte man laut Rolf Porst (2014) immer dann verwenden, wenn man das Universum der Antwortkategorie zu seiner gewünschten Frage genau benennen kann. Oft ist dies aber schwieriger als gedacht. Wenn Sie nun mal, ganz beispielhaft, an die Frage denken: „Was machen Sie in Ihrer Freizeit am liebsten?“ Können Sie alle möglichen Antwortkategorien benennen? Wahrscheinlich ist Ihre Antwort „Nein“. Hier sollte das Stigma der „aufwändigen“ offenen Frage abgelegt werden und öfters zu diesem Fragetyp gegriffen werden. Vor allem mit den Auswertungsmöglichkeiten, die uns heutzutage zu Verfügung stehen, ist die Offene Frage ein sehr wertvoller Fragetyp. Sollten Sie dennoch nicht die Zeit aufwenden wollen, alle Antworten einer offenen Frage durchlesen zu wollen, ist der halboffene Fragetyp die optimale alternative.

Literatur

Friedrich, U. F. C. (2022). Quick Guide Onlinefragebogen. Wie Sie Ihre Zielgruppe professionell im Web befragen. Springer Fachmedien Wiesbaden GmbH.

Grouven, U., Bender, R., Ziegler, A., & Lange, S. (2007). Der Kappa-Koeffizient [The kappa coefficient]. Deutsche medizinische Wochenschrift (1946)132 Suppl 1, e65–e68. https://doi.org/10.1055/s-2007-959046

Porst, R. (2011). Fragebogen: Ein Arbeitsbuch (3rd ed.). VS Verlag für Sozialwissenschaften.

Reinders, H., Ditton, H., Grasel, C., & Gniewosz, B. (Eds.). (2011). Empirische Bildungsforschung: Strukturen Und Methoden. Vs Verlag Fur Sozialwissenschaften.

Züll, C., & Menold, N. (2022). Offene Fragen. In Handbuch Methoden der empirischen Sozialforschung (pp. 1127–1134). Springer Fachmedien Wiesbaden.

Eigene Smileys oder Bilder/Icons für Ratingskala verwenden

Vielfach werden in Fragebögen, zum Beispiel für Kinder, Smileys angeboten, um Aussagen zu bewerten. Achten Sie dabei immer darauf, dass die Emotion, die die Smileys vermitteln, auch sprachlich und inhaltlich zu Ihren Aussagen passen. Zum Beispiel ist ein trauriges Smiley nicht immer ideal, um «trifft nicht zu» auszudrücken, denn die Emotion «Traurigkeit» muss nicht zwangsläufig mit dem «Nichtzutreffen» korrelieren. Eine Ablehnung von etwas Negativem kann zum Beispiel auch Freude machen 😉

Um eine Ratingskala zu erfassen, die aus eigenen Symbolen, Icons oder Smileys besteht, müssen Sie die Symbole / Icons / Bilder / Smileys erst in einem Bildbearbeitungsprogramm erstellen und einzeln speichern.

Achten Sie darauf, dass alle Bilder die gleiche Grösse (Pixel) aufweisen. Speichern Sie diese am besten im gif-Format, oder auch png-Format, ab und benennen Sie sie sinnvoll, z.B. Smileyskala_lachenvoll.png, Smileyskala_lachenetwas.png, Smileyskala_mittel.png, Smileyskala_traurigetwas.png, Smileyskala_traurigvoll.png – oder ähnlich. Einfach so, dass Sie gut erkennen, welches Bild welches Smiley enthält.

Laden Sie dann alle Bilder unter «Fragebogen > Bilder, Sound/Video, PDF» in Ihren Account hoch.

Als nächstes erfassen Sie unter «Fragebogen» eine neue Frage, die eine Skala enthält, zum Beispiel den Fragetypen «Tabelle (Multi-Rating)».

Sie können dort nun bei der Auswahl der Skala auf «Eigene Skala» klicken und auf dem erscheinenden Tab dann «Neue, eigene Skala erstellen» anklicken.

Dort sehen Sie Eingabefelder für die Skalenausprägungen.

Geben Sie hier nun die Filenamen der Bilder an, die Sie hochgeladen haben, und vorneweg immer den Terminus «KBILD». Also zum Beispiel:
KBILDSmileyskala_lachenvoll.png
KBILDSmileyskala_lachenetwas.png
KBILDSmileyskala_mittel.png
KBILDSmileyskala_traurigetwas.png
KBILDSmileyskala_traurigvoll.png

Wenn Sie die Frage nun speichern, erscheint Ihre neue, eigene Smiley-Skala und kann auch wiederverwendet werden, in dem Sie diese für weitere Fragen einfach nur unter «Eigene Skalen» selektieren.

Beachten Sie, dass Skalen ausbalanciert sein sollten, also immer gleich viele positive wie negative Skalenausprägungen enthalten sollten. Wichtiger als die Frage, ob eine Mittelkategorie angeboten werden sollte, ist das Anbieten einer Ausweichkategorie, um Trash-Antworten zu verhindern. Zum Beispiel, in dem eine Ausprägung «keine Angabe» oder «weiss nicht/keine Antwort» angeboten wird. Dafür bietet unser System eine Extra-Option «weiss nicht», zusätzlich zu den eigentlichen Antwortvorgaben. Diese wird im Fragebogen schliesslich direkt neben den Antwortvorgaben, etwas abgesetzt und farblich abgehoben, dargestellt.

Mehrfachteilnahmen und wie Sie diese verhindern können

Obwohl es im grossen Universum der Anwendungsbereiche einer Onlineumfrage durchaus Projekte gibt, bei denen es sinnvoll ist, wenn Teilnehmende mehrfach an der Umfrage teilnehmen können, ist diese Option nicht immer erwünscht. Unser Umfragetool bietet Ihnen daher eine Auswahl an Funktionen an, über die Sie Mehrfachteilnahmen unterbinden können. Welche genau das sind, wie Sie diese anwenden und ob Mehrfachteilnahmen überhaupt ein Thema sind, mit dem Sie sich für Ihr Umfrageprojekt auseinandersetzen sollten, beschreibt der folgende Blogbeitrag.


Was sind «Mehrfachteilnahmen»?

Unter Mehrfachteilnahmen verstehen wir Fragebögen, welche von einem/einer Teilnehmenden ausgefüllt wurden, der/die bereits zuvor mindestens ein Mal an der Umfrage teilgenommen hat.

Für die mehrfache Teilnahme an Umfragen kann es verschiedene Gründe geben: Vielleicht erwartet die Teilnehmenden am Ende der Befragung eine attraktive Belohnung oder ein interessantes Gewinnspiel? Oder der/die Teilnehmende ist so begeistert von Ihrem Produkt, dass er/sie diese Begeisterung direkt zwei oder drei Mal zum Ausdruck bringen möchte? Auch dass die Teilnehmenden schlicht vergessen haben, dass sie die Umfrage bereits ausgefüllt hatten, kann ein Grund für eine Mehrfachteilnahme sein. Seltener ist zudem auch das absichtliche beeinflussen der Umfrageergebnisse das Ziel von Teilnehmenden, die mehrfach an einer Befragung teilnehmen.

Unabhängig von der Motivation der Teilnehmenden für die erneute Teilnahme, können Mehrfachteilnahmen negative Auswirkungen auf die Datenqualität Ihrer Umfrage haben. So ist es beispielsweise wahrscheinlich, dass Teilnehmende, die alleinig Ihre Chancen auf einen Gewinn erhöhen möchten, bei der zweiten oder dritten Teilnahme wahllos Antworten ankreuzen und somit verschmutzte Daten generieren, die das Ergebnis verzerren (mehr zum Thema verschmutzte Daten finden Sie in unserem Blogeintrag Speeder, Musterankreuzer und Straightliner: Verschmutzte Daten und wie man Ihnen entgegenwirken kann ).
Auch wenn Teilnehmende den Fragebogen mehrfach ehrlich ausfüllen, wird das Ergebnis durch die Mehrfachteilnahmen verfälscht, da die Rückmeldung des/der entsprechenden Mehrfachteilnehmers/Mehrfachteilnehmerin in der Gesamtstichprobe Ihrer Umfrage nun überrepräsentiert wird.

Aus diesen Gründen ist es wichtig, dass Sie sich vor dem Start Ihrer Umfrage mit der Thematik auseinandersetzen und sich die Frage stellen: Gibt es für die Teilnehmenden meiner Umfrage Anreize, den Fragebogen mehrfach auszufüllen? Und hätte eine solche Mehrfachteilnahme negative Auswirkungen auf die geplante Auswertung / Weiterverwertung der Umfragedaten?


Mehrfachteilnahmen einmal erwünscht, einmal unerwünscht – ein Beispiel

Projekt A:
Sie planen Workshops, an denen die Mitarbeitenden Ihres Unternehmens kostenlos teilnehmen können. Für die Anmeldung zu den entsprechenden Workshops erstellen Sie eine Onlineumfrage, bei der die Teilnehmenden ihre Kontaktdaten angeben und den gewünschten Workshop auswählen können. Um die Erstellung der Teilnehmerlisten möglichst einfach zu gestalten, ist pro Workshop eine Anmeldung erforderlich. Es gibt keine Begrenzung dafür, für wie viele Workshops sich ein/e Mitarbeiter/in anmelden darf.

In diesem Anwendungsfall ist es durchaus sinnvoll und auch erwünscht, dass die Teilnehmenden mehrmals an der Umfrage teilnehmen können. Mehfachteilnahmen stellen in Bezug auf die Auswertung kein grosses Risiko dar. Einzig die Teilnehmerlisten für die einzelnen Workshops sollten ggf. noch manuell auf Doppel-Einträge überprüft werden für den Fall, dass ein/e Teilnehmende/r sich aus Versehen zwei Mal für denselben Workshop angemeldet hat.

Projekt B:
Um die Rückmeldungen der Teilnehmenden zu den Workshops zu sammeln und diese für das kommende Jahr weiter zu verbessern, planen Sie Feedback-Umfragen durchzuführen. Dabei wird für jeden der angebotenen Workshops eine eigene Umfrage mit Workshop-spezifischen Fragen erstellt. An der Umfrage teilnehmen sollen alle Mitarbeitenden, die den entsprechenden Workshop besucht haben.

In diesem Anwendungsfall ist es wichtig, dass jede/r Teilnehmende nur einmal Feedback abgeben kann um sicherzustellen, dass die Rückmeldungen aller Teilnehmenden in der Auswertung mit demselben Gewicht einfliessen. Daher sollten Mehrfachteilnahmen verhindert werden.


Mehrfachteilnahmen verhindern – unsere Funktionen

In unserem Umfrage-Tool gibt es grundsätzlich drei Optionen, die Sie dabei unterstützen, Mehrfachteilnahmen möglichst zu verhindern: den Befragungstyp «geschlossene Umfrage», sowie die weiteren Sicherheitsoptionen «Cookie-Sperre» und «IP-Sperre».


Geschlossene Umfrage

Der Umfragemodus «geschlossene Umfrage» ist die sicherste Option um eine Mehrfachteilnahme zu verhindern. Im Unterschied zu den Befragungstypen «offene» und «halboffene Umfrage», bei denen der Zugangslink (und im Fall der halboffenen Umfrage auch das Passwort) für alle Teilnehmenden identisch sind, werden beim Befragungstyp «geschlossene Umfrage» individuelle Zugangslinks oder Passwörter erstellt.

Jede/r Teilnehmende hat damit genau einen Zugang zur Umfrage zur Verfügung. Mehrfachteilnahmen sind nur möglich, wenn ein/e Teilnehmende/r mehrmals zur Befragung eingeladen würde oder von anderen Teilnehmenden die entsprechenden Zugänge erhält.

Um den Befragungstyp «geschlossene Umfrage» für Ihre Umfrage einzustellen, gehen Sie bei der entsprechenden Umfrage in den Menübereich «Teilnehmer» und klicken bei «1. Schritt > Befragungstyp wählen» auf den Link «offen, halboffen, geschlossen»
Wählen Sie nun im anschliessenden Menü die geschlossene Umfrage an und speichern Sie Ihre Einstellungen anschliessend über den grünen Button «Jetzt speichern!» ab.

Wichtig: Eine geschlossene Umfrage ist im Unterschied zur halboffenen oder offenen Umfrage grundsätzlich nicht anonym, da sich die einzelnen Teilnehmenden über den Ihnen zugewiesenen individuellen Zugang identifizieren lassen. Wenn Sie Ihren Teilnehmenden die Anonymität gewährleisten, aber dennoch von den Vorteilen der geschlossenen Umfrage profitieren möchten, aktivieren Sie zusätzlich die «Anonymisierungsgarantie» im Menübereich «Teilnehmer» unter «1. Schritt > Weitere Sicherheitsoptionen > Anonymisierungsgarantie».

Weitere Informationen zu den verschiedenen Befragungstypen finden Sie auch in unserem Blogbeitrag Welcher Umfragemodus (offen / halboffen / geschlossen) ist der Richtige für mich? .


Cookie- und IP-Sperre

Wenn die geschlossene Umfrage für Ihr Projekt nicht in Frage kommt (z.B. weil Sie diese über einen QR-Code am Ende des Workshops einblenden möchten und der Zugangslink daher für alle Teilnehmenden zwingend derselbe sein muss) oder Sie Ihre Umfrage zusätzlich zur geschlossenen Umfrage noch weiter absichern möchten, stehen Ihnen im Menübereich «Teilnehmer» unter 1. Schritt > Weitere Sicherheitsoptionen» die Funktionen «Cookie-Sperre» und «IP-Sperre» zur Verfügung.

Wie es die Namen schon sagen, verhindern die zwei Funktionen nach dem ersten Zugriff das erneute Aufrufen eines neuen Fragebogens entweder anhand der IP-Adresse des/der Teilnehmenden oder auf Basis der gespeicherten Cookies im Browser. Unser System prüft dabei, ob bereits ein Rücklauf mit der entsprechenden IP besteht oder ob im Browser bereits ein Umfrage-Cookie vorhanden ist, das zu der entsprechenden Umfrage gehört.

Dies kann in bestimmten Fällen jedoch auch zu Unstimmigkeiten führen. Beispielsweise dann, wenn mehrere Teilnehmende sich im selben Firmennetz befinden und daher dieselbe IP-Adresse haben oder wenn ein Gerät von mehreren Personen zum beantworten des Fragebogens verwendet wird. In beiden Fällen wäre eine Teilnahme jeweils nur für die erste Person möglich, alle weiteren Teilnehmenden aus diesem Firmennetz / von diesem Gerät würden danach durch die Cookie- oder IP-Sperre blockiert.

Einen kurzen Überblick über die Funktionsweise und allfällige Herausforderungen mit der Cookie- und IP-Sperre finden Sie in der nachfolgenden Tabelle. Grundsätzlich gilt, dass die Cookie-Sperre in vielen Fällen ein geeignetes Mittel ist, während die IP-Sperre nur mit Vorsicht eingesetzt werden sollte, da über diese ganze Firmen oder öffentliche Institutionen von einer Teilnahme ausgeschlossen werden können.

 Cookie-Sperre  IP-Sperre
Lässt erneuten Zugriff auf Umfrage nicht zu, wenn…… im Browser bereits ein OU-Umfrage-Cookie vorhanden ist, dass zur entsprechenden Umfrage gehört  … bereits ein Rücklauf mit derselben IP-Adresse in der Datenbank der Umfrage vorliegt
Kann umgangen werden, in dem…… die Browser-Cookies gelöscht werden   … ein anderer Browser verwendet wird   … ein anderes Gerät verwendet wird  … ein anderes Netz (z.B. mobiles Netz, Heim- oder Firmennetz etc.) verwendet wird   … über VPN oder einen ähnlichen Service eine neue IP-Adresse erlangt wird  
Führt ggf. zu Unstimmigkeiten, wenn…… mehrere Teilnehmende dasselbe Gerät (und denselben Browser) verwenden  … mehrere Teilnehmende über dieselbe IP-Adresse auf die Umfrage zugreifen (z.B. Firmen, Haushalte, öffentliches WLAN an einer Universität / Schule etc.)  

Aus den oben aufgeführten Gründen, ist es wichtig, den Einsatz der Cookie- und/oder IP-Sperre jeweils gründlich zu überdenken. Im Zweifelsfall stehen Ihnen unsere Consultants bei der Entscheidung für/gegen eine IP- und/oder Cookie-Sperre gerne beratend zur Seite.

Um die Cookie- und/oder IP-Sperre in Ihrer Umfrage zu aktivieren, gehen Sie in den Menübereich «Teilnehmer» und wählen unter «1. Schritt > Weitere Sicherheitsoptionen» den entsprechenden Link an. Setzen Sie im erscheinenden Menü die entsprechenden Haken und speichern Sie Ihre Eingabe über einen Klick auf den grünen Button.


Unsere Empfehlung

Grundsätzlich empfehlen wir, wenn Mehrfachteilnahmen für Ihre Umfrage nicht erwünscht sind, nach Möglichkeit immer den Befragungsmodus «geschlossene Umfrage» (ggf. mit aktiver Anonymisierungsgarantie) zu verwenden. Dies ist die sicherste Art und Weise, Ihre Daten vor den negativen Effekten von Mehrfachteilnahmen zu schützen.

Sollte die geschlossene Umfrage keine Möglichkeit sein, ist die Cookie-Sperre in der Regel eine gute Option, um dennoch einen gewissen Schutz vor Mehrfachteilnahmen zu haben. Die IP-Sperre sollte dagegen nur dann angewendet werden, wenn mit Sicherheit ausgeschlossen werden kann, dass mehrere Teilnehmende vom selben Netzwerk aus teilnehmen.

Eigene Fonts (Schriftarten) einbinden

Um Ihre Umfrage mit eigenen Schriftarten auszustatten, gibt es verschiedene Möglichkeiten.

  1. Prüfen Sie erst einmal, ob bei den von uns angebotenen Systemschriften eine passende Alternative dabei ist. Wir haben versucht, für die meisten gängigen Schriften passende lizenzfreie Google-Schriften als Alternative anzubieten. Sie finden die generell verfügbaren Schriften mit einem einzigen Klick aktivierbar unter «Fragebogen > Aussehen/Eigenes Logo» rechts unten.
Standard Schriftarten des Systems

2. Sollten Sie eine andere Schrift bevorzugen oder mehrere Schriften kombinieren wollen, können Sie die Schrift(en) auch über die Funktion «Fragebogen > Aussehen/Eigenes Logo > Eigene CSS» selbst importieren.

Schriften aus Google Fonts können dabei besonders einfach integriert werden:

Wählen Sie die Schrift dazu einfach unter Google Fonts aus, klicken Sie auf «@import» und kopieren Sie den gelb markierten Code.

Sie können diesen Code dann in onlineumfragen.com unter «Fragebogen > Aussehen/Eigenes Logo > Eigene CSS» in den eigenen CSS-Code kopieren.

@import url('https://fonts.googleapis.com/css2?family=Noto+Sans:ital,wght@0,400;0,700;1,400;1,700&display=swap');

Sie können dann beliebige CSS-Klassen, die in der Umfrage verwendet werden, umdefinieren.

Die Umfrage können Sie unter «Fragebogen > Ganzen Fragebogen testen!» testen und dann z.B. mit Chrome im Entwicklertools aktivieren, um den Quellcode zu untersuchen. Sie sehen dann die verwendeten CSS-Klassen:

Quellcode untersuchen mit Google Chrome und CSS-Klassen erkennen

Der Titel über der Frage ist immer «fragetitel». Sie können also in den «Eigene CSS» einfach die Klasse fragetitel neu definieren:

.fragetitel { font-family: "Noto Sans", Arial, Helvetica, sans-serif, sans }

Die typischen Klassen, die meistens in einem neuen Font erscheinen sollen sind folgende (sie können diese CSS-Definitionen einfach so übernehmen und den Font anpassen):

.schriftklein, .schriftmittel, .schriftgross, .bodytext, .breadcrumbblack, .agbtext, .hinweiscol, .fragetitel { font-family: "Noto Sans", Arial, Helvetica, sans-serif;}

Möchten Sie ganz eigene Schriften verwenden, für die Sie eine Lizenz besitzen, auch wenn sie in der Umfrage angezeigt werden? Dann können Sie über unseren Support unter info@onlineumfragen.com gerne mit uns Kontakt aufnehmen. Unsere Survey Consultants helfen Ihnen gerne weiter. Wir binden die Schrift dann lokal auf unsere WebServer / Proxy-Server ein, damit die Schrift bei uns jederzeit zugänglich ist (gehostet wird), und binden diese über die «Eigene CSS»-Funktion für Sie ein.

Tabellenfragen mit Sticky/fixierten Headern und erster Item-Spalte

Wenn Tabellenfragen besonders lang oder breit sind, kann es auf kleineren Bildschirmen für Ihre Teilnehmenden unübersichtlich sein, diese zu beantworten. Bei den unteren Zeilen verschwindet die erste Zeile der Tabelle, die die Skala beinhaltet. Standardmässig wird die erste Zeile (Skala) fixiert, d.h. die weiteren Zeilen scrollen «unter» dieser fixierten ersten Skala-Zeile durch.

Die selbe Option ist für die erste Spalte möglich, so dass bei besonders breiten Skalen, die nicht auf einer Bildschirmbreite zu sehen sind, die erste Item-Spalte stehen bleiben kann.

Die Option wird unter «Fragebogen > Aussehen/Eigenes Logo» unter «Tabellenfragen-Item-Spalte fixieren (Skalen scrollen horizontal unter die Item)» aktiviert.

«Tabellenfragen-Item-Spalte fixieren (Skalen scrollen horizontal unter die Item)» aktivieren.

Dies sieht dann in der Umfrage folgendermassen aus:

Voilà.

Welcher Umfragemodus (offen / halboffen / geschlossen) ist der Richtige für mich?

Unser Tool bietet Ihnen im Menübereich «Teilnehmer» beim 1. Schritt unter «Befragungstyp wählen» verschiedene Optionen für Ihren Umfragemodus. Es kann eine Wahl zwischen geschlossen, halboffen und offen getroffen werden. Im folgenden Blogeintrag werden die einzelnen Möglichkeiten genauer beschrieben und Ihnen erläutert, wann welcher Modus am sinnvollsten ist, um Ihnen Ihre Wahl zu erleichtern.

Geschlossene Umfrage

Der geschlossene Befragungstyp eignet sich für Mitarbeitendenbefragungen, Kundenbefragungen, sichere Befragungen oder wenn es sich um Befragungen mit einem fixen und Ihnen bekannten Personenkreis handelt. Jede*r Teilnehmer*in erhält ihr*sein persönliches Passwort für die Befragung. Dieses Passwort kann entweder von unserem System automatisch generiert und in die Einladungsmail integriert werden oder das System kann die Passwörter automatisch generieren, ohne sie in die Einladungsmail zu inkludieren. Möchten Sie, dass die Passwörter automatisch generiert und in die Einladungsmail integriert werden, so können Sie im Menübereich «Teilnehmer» unter «Einladungs-Mail für Teilnehmer verfassen» in der Einladungsmail mit dem Code %PASSWORT% für alle Teilnehmenden individuelle Passwörter integrieren.

Es besteht ebenfalls die Möglichkeit, das Passwort direkt in den Link der Umfrage zu integrieren. Hierfür können Sie im Menübereich «Teilnehmer» unter «Einladungs-Mails versenden» die Option «Passwort direkt in den Link verpacken, keine separate Passwort-Eingabe nötig (One-Click)» anwählen. Nun erhält jede*r Teilnehmende einen personalisierten Link und muss das Passwort nicht in die Eingabemaske eingeben. Dadurch wird die Benutzerfreundlichkeit der Umfrage gesteigert und die Teilnehmenden können direkt mit der Umfrage starten.

Wenn Sie die Passwörter selber verteilen möchten, so lassen Sie die Passwörter automatisch generieren, ohne diese in die Einladungsmail einzufügen. Diese Option finden Sie im Menübereich «Teilnehmer» unter «Passwörter generieren für neue oder weitere User, die Sie selbst informieren (Brief, Telefon, eigene Mailings)» und wählen Sie hier die Variante 2: «Passwörter / Links generieren ohne E-Mail-Adressen». Nun können Sie die Passwörter in Ihrem eigenen Mailprogramm versenden oder, falls erwünscht, auch ausdrucken. Das individuelle Passwort erlaubt den Teilnehmenden nach einem Unterbruch in der Befragung dort einzusteigen, wo sie den Fragenbogen verlassen haben, und ihn weiter zu bearbeiten. Ebenfalls verhindert ein persönliches Passwort die mehrfache Teilnahme einer Person an der Umfrage.

Versenden Sie den geschlossenen Fragebogen ohne aktivierte Anonymisierungsgarantie, so kann der ausgefüllte Fragebogen problemlos den Befragten zugeordnet werden. Es ist also möglich, die einzelnen Antworten auf einzelne Teilnehmende zurückzuführen. Falls Sie dies nicht wünschen, können Sie Ihre Umfrage mit einem Mausklick anonymisieren. Dadurch sind keinerlei Rückschlüsse der Fragebögen auf die Befragten möglich. Die Einstellungen zur Anonymisierung können Sie im Menübereich «Teilnehmer» unter «Anonymisierungsgarantie» bearbeiten.

Halboffene Umfrage

Diese Umfrageform bietet sich vor allem für nicht komplett öffentliche Umfragen, die einen halboffenen Teilnehmerkreis haben, an. So zum Beispiel, wenn Sie eine Umfrage in einem Verein durchführen möchten, aber Ihnen die Kontaktdaten einiger Vereinsmitglieder fehlen. Bei halboffenen Umfragen erhalten alle Teilnehmenden dasselbe Passwort. Dieses Passwort kann beispielsweise auch firmenintern weitergegeben werden, denn jede Person, die das Passwort besitzt, kann an der Umfrage teilnehmen. Eine halboffene Umfrage gibt den Teilnehmenden die Gelegenheit, beliebig oft an einer Umfrage teilzunehmen. Solche Wiederholungstäter können jedoch anhand einer Cookie- oder IP-Sperre-Einstellung aufgehalten werden. Entscheiden Sie sich für die Cookie-Sperre, so werden auf den PCs der Teilnehmenden Cookies installiert, die beim zweiten Teilnahmeversuch vom System erkannt werden und die Teilnehmenden abweisen. Bei der IP-Sperre wird die IP-Adresse der Teilnehmenden untersucht. Wurde die IP-Adresse bereits in unserer Datenbank abgelegt, so verhindert das System eine erneute Teilnahme. Hier ist zu beachten, dass in Firmennetzwerken oft alle Mitarbeitenden mit derselben IP-Adresse surfen. Stellen Sie in diesem Fall eine IP-Sperre ein, kann nur ein einziges Mitglied der Firma an der Umfrage teilnehmen. Grundsätzlich empfehlen wir, bei Umfragen wie Mitarbeitendenbefragungen keine IP-Sperre einzurichten. Diese Einstellungen finden Sie im Menübereich «Teilnehmer» unter «Cookie-Sperre, IP-Sperre, IP-Range».

Sie haben die Option, Ihre halboffene Umfrage anonymisiert oder nichtanonym durchzuführen. Für eine Zuordnung der Fragebogen zu den Teilnehmenden ist es notwendig, die Tracking-Option zu aktivieren. Die Tracking-Funktion wird im Menübereich «Teilnehmer» unter «Einladungsmails versenden» anhand der Funktion «Teilnehmervefolgung einschalten» freigeschalten. Hier wird bei jedem Link zur Umfrage ein individueller Zusatz am Schluss angefügt, um die einzelnen Teilnehmenden zu tracken. Damit das Tracking durchgeführt werden kann, muss beim Einladungsmail folgender Befehl hinzugefügt werden: %LINK%. Der Code wird im Einladungsmail durch den Link zur Befragung, der den Zusatz für das Tracking erhält, ersetzt. Wird der Link der Umfrage weitergeleitet, können die Antworten der nächsten Person, die die Umfrage ausfüllt, nicht mehr getrackt werden. Um alle Teilnehmenden zu tracken, wird am besten eine geschlossene Umfrage mit einem persönlichen Passwort durchgeführt. Die Tracking-Option zu aktivieren ist vor allem dann sinnvoll, wenn Ihnen nicht alle Teilnehmenden bekannt sind, Sie die Ihnen bekannten Teilnehmenden dennoch den Fragebögen zuordnen möchten. Das Tracking kann nachträglich entfernt werden, um den Teilnehmenden eine anonymisierte Umfrage zu bieten.

Offene Umfrage

Möchten Sie eine Umfrage auf Ihrer Website, in Ihrem Newsletter oder in einem Forum mit beliebigen Teilnehmenden durchführen? Dann ist der offene Umfragetyp ideal für Sie! Für die Teilnahme an einer offenen Umfrage braucht es kein Passwort für die Befragten. Jede Person, die den Link der Umfrage hat, kann an der Befragung teilnehmen. Den Link zur Umfrage finden Sie im Menübereich «Teilnehmer» rot hinterlegt.

Es steht den Befragten ebenfalls frei, so oft sie möchten an der Befragung teilzunehmen. Auch hier können Sie Cookie- oder IP-Sperre-Einstellungen vornehmen, um dies zu verhindern. Schalten Sie beim Versand die Tracking-Option ein, ist die Zuordnung der Fragebögen an die Teilnehmenden möglich. Diese kann nachträglich entfernt werden.

Abschliessend lassen sich die Umfragetypen folgendermassen zusammenfassen: Eine geschlossene Umfrage ist dann sinnvoll, wenn Ihnen Ihr Teilnehmerkreis bekannt ist und Sie Mehrfachteilnahmen ausschliessen möchten. Halboffene Umfragen sollen angewendet werden, wenn nicht jede*r teilnehmen darf und nicht alle Email-Adressen der Teilnehmenden bekannt sind. Für offene Umfragen entscheiden Sie sich am besten, wenn Ihnen Ihr Teilnehmerkreis nicht bekannt ist.

Sind Sie sich nicht sicher, für welchen Umfragemodus Sie sich entscheiden sollen oder benötigen Sie Hilfe bei der Anonymisierung Ihrer Umfrage? Nehmen Sie Kontakt mit uns auf! Unsere Mitarbeiter unterstützen und beraten Sie gerne zu den verschiedenen Umfragetypen.

Speeder, Musterankreuzer und Straightliner: Verschmutzte Daten und wie man Ihnen entgegenwirken kann

Onlinebefragungen bringen viele ökonomische Vorteile mit sich: Sie sind vergleichsweise kostengünstig, zeitsparend und angenehm auszuwerten. Aber auch aus methodologischer Sicht haben Sie anderen Befragungsmethoden gegenüber die Nase vorn: Interviewereinflüsse fallen weg und auch die Auswirkungen von sozialer Erwünschtheit auf das Antwortverhalten können erfolgreich minimiert werden. Kein Wunder, dass dieser Befragungsmodus in den letzten Jahren an enormer Beliebtheit gewonnen hat.

Allerdings bringt der hohe Grad an (empfundener) Anonymität in der typischen Onlinebefragung auch einige Probleme mit sich: Teilnehmer fühlen sich bei schriftlichen (Online)Befragungen weniger verpflichtet den Fragebogen gewissenhaft auszufüllen, als wenn Ihnen beispielsweise ein Interviewer gegenübersitzt oder am Telefon zuhört. Dadurch erhöht sich auch die Tendenz zum Ankreuzen von falschen oder willkürlichen Antworten, insbesondere dann, wenn die Teilnehmer zum Ausfüllen des Fragebogens verpflichtet werden oder am Ende der Befragung ein attraktiver Incentive (z.B. Gutschein, Verlosung) wartet. Solches Verhalten – wahlloses- oder Muster-Ankreuzen, sowie die systematische Wahl einer spezifischen Antwortmöglichkeit– verschmutzt die Daten und kann zu Verzerrungen in den Auswertungen führen. Die ist vor allem dann besonders problematisch, wenn die Rücklaufzahl insgesamt eher gering oder der Anteil der verschmutzten Rückläufe hoch ist.

Inhaltsabhängiges vs. Inhaltsunabhängiges verschmutzendes Verhalten

Wenn man von verschmutzten oder verzerrten Daten spricht, kann man grundsätzlich zwischen zwei Arten von potentiellen Ursachen für dieses Verhalten unterscheiden: Ursachen, die aus dem Inhalt des Fragebogens entstammen (inhaltsabhängiges Verhalten), und Ursachen welche unabhängig vom Befragungsinhalt auftreten und somit vom Teilnehmer selbst ausgehen (inhaltsunabhängiges Verhalten).

Bekannte Beispiele von Ursachen für inhaltsabhängiges verschmutzendes Verhalten sind beispielsweise Reihenfolgeeffekte, Suggestivfragen oder nicht-ausbalancierte Skalen. Um diesen Arten von Effekten entgegen zu wirken, wurden durch die Methodenforschung zahlreiche Standardregeln entwickelt, die bei der Gestaltung von Befragungen eingehalten werden sollen. Eine gute Zusammenstellung dieser Regeln sowie auch der verschiedenen Ursachen finden Sie beispielsweise in Rolf Porst (2013) «Fragebogen – Ein Arbeitsbuch».

Hauptthema dieses Blogbeitrags ist jedoch jenes Verhalten, welches weitaus weniger erforscht und komplexer auszumerzen ist: das inhaltsunabhängige verschmutzende Verhalten. Als Durchführer/in einer Onlinebefragung haben Sie im Normalfall keinen Einfluss auf das Verhalten und die Prädisposition des Teilnehmers, der zu Hause vor dem Bildschirm sitzt und Ihre Umfrage ausfüllt. Dennoch gibt es eine Handvoll Techniken, die es Ihnen erlauben, den Grad der Verzerrung durch diese Art von Verhalten zu minimieren.

Response Sets

Mit Response-Set wird ein Muster in der Beantwortung von Fragebatterien gemeint, welches unabhängig vom Inhalt der Frage oder des Fragekontexts auftritt. Solche Muster können in verschiedenen Formen auftreten. Die häufigsten dieser Formen sind dabei:

  1. Response Range: Ein Teilnehmer verwendet unabhängig vom Inhalt der Frage oder der Ausrichtung der Antwortvorgaben immer nur einen bestimmten Bereich der Skala.
    Beispiel: Ein Teilnehmer wählt bei jeder Frage den ersten oder zweiten Skalenpunkt resp. die erste oder zweite Antwortmöglichkeit an – unabhängig von der Polung (Ausrichtung) der Skala oder der Anzahl möglicher Antworten (Abstufungen). Innerhalb einer Tabellenfrage könnte dies Beispielsweise so aussehen:

  2. Extreme Checking Style: Ein Teilnehmer kreuzt abwechselnd den linken und den rechten Extrempunkt der Skala an.
    Beispiel: Bei Frage 1 wählt der Teilnehmer die erste (oder auf einer Likert-Skala, die am weitesten links liegende) Antwortmöglichkeit, bei Frage 2 die Letzte (am weitesten rechts), bei Frage 3 wieder die Erste (Links), bei Frage 4 die Letzte (Rechts), etc.

  3. Muster-Ankreuzer: Wenn man das Antwortbild einer Tabellenfrage (z.B. Fragetypen «Tabelle Multi-Rating«, «Tabelle Multiple-Choice» oder «Freie Matrix» unseres Tools) betrachtet, lassen sich Muster, wie beispielsweise Diagonalen oder Pfeile, finden.
    Beispiel:
  4. Straightliner: Teilnehmende weisen ein sogenanntes Null-Varianz Antwortverhalten auf, d.h. Sie kreuzen immer dieselbe Antwort an, unabhängig von der Anzahl Antwortmöglichkeiten oder der Polung der Skala. Besonders oft wird die durchgängige Wahl des mittleren Skalenpunktes («Centrism») oder eines Extremwerts («Extremism») beobachtet.
    Beispiel: Ein Teilnehmer wählt bei jeder Frage die erste Antwortoption aus («Extremism)».

Grundsätzlich sind alle Formen von Response-Sets sowohl zwischen als auch innerhalb von Fragen mit mehreren bewertbaren Items auffindbar. Allerdings sind Straightliner und Muster-Ankreuzer tendenziell eher innerhalb einer Tabellenfrage anzutreffen.

Folgen

Besonders Straightliner sind bei unmotivierten Teilnehmern beliebt. Studien ergeben, dass bei einer offenen Onlinebefragung jeder vierte Teilnehmer mindestens eine von neun ausgewählten Fragen mit Null-Varianz Antwortverhalten beantwortet hat (Jandura, 2018). Doch wie schwerwiegend sind die Folgen von Response-Sets für die Datenqualität und Auswertungen?

Für viele der gängigen statistischen Auswertungen sind die Auswirkungen glücklicherweise gering. Gerade bei Häufigkeitsauszählungen (OU-Standardauswertung), Mittelwerten, einfachen Streuungsmassen oder Korrelationsmassen werden nur marginale Effekte nachgewiesen. Allerdings wächst die Differenz zwischen den Ergebnissen mit und ohne Teilnehmer mit Response-Sets mit dem Anteil der Befragten, die auf solches verschmutzendes Verhalten zurückgreifen.
Aus diesem Grund sollte man sich auch bei solchen Auswertungen Gedanken darüber machen, ob und in welchem Ausmass verschmutzendes Verhalten vorliegen könnte und wie damit umgegangen werden soll.

Stark problematisch werden durch Response-Sets verschmutzte Daten jedoch bei Analysen, die sich an der Ähnlichkeit von Antworten orientieren. Dazu gehört allen voran die Cluster-Analyse (z.B. Chi-Quadrat, Jaccard-Koeffizient, oder Pearson Korrelationskoeffizient), welche beispielsweise bei Zielgruppen- oder Zusammenhangsanalysen eingesetzt werden. Auch in unserem Tool können solche Analysen mittels der Auswertungsfunktion «Chi-Quadrat-Mehrfeldertest mit Kreuztabelle (für nominale Items) / Signifikanz / Pearson / Cramer)» vorgenommen werden.

Wenn davon ausgegangen werden muss, dass Teilnehmer mit Response-Sets vorhanden sind und diese die Auswertungen bedeutend verzerren, muss vor den Auswertungen eine Datensatzbereinigung vorgenommen werden. Bei dieser Bereinigung werden verschmutzte Rückläufe aus dem Datensatz gelöscht oder zumindest von der Auswertung ausgeschlossen (z.B. über die Superfilter-Funktion unseres Onlinetools).

Identifikation & Datensatzbereinigung

Es gibt verschiedene Arten um verschmutzendes Verhalten zu identifizieren. Die meisten Strategien beziehen sich dabei auf die Identifizierung nach der Messung, d.h. nachdem die Feldphase der Befragung beendet wurde und der Datensatz vorliegt. Allerdings gibt es auch einige Möglichkeiten, bereits bei der Gestaltung des Fragebogens Mechanismen einzubauen, die die Identifizierung von Response-Sets vereinfachen.

Zu diesen Mechanismen gehören sogenannte Aufmerksamkeitstests, die überprüfen ob die Aufgaben sorgfältig gelesen und ausgefüllt werden. Beispielsweise können in der Frageformulierung unübliche Anweisungen gegeben werden («Kreuzen Sie die nachfolgende Checkbox nicht an, wenn Sie dies gelesen haben»). Eine zweite gängige Technik sind umgepolte (umgedrehte) Skalen (z.B. wenn «sehr gut» plötzlich nicht mehr am linken sondern am rechten Ende der Skala aufzufinden ist) oder Fallen, die widersprüchliches Verhalten aufdecken. Beispielsweise kann ein Produkt, von dem der Teilnehmer in einer früheren Frage angegeben hat, dass er es nicht kennt, trotzdem in Folgefragen mitangezeigt werden. Falls der Teilnehmer dann dieses Produkt trotzdem bewertet statt «Kenne ich nicht» anzuwählen,  widerspricht er sich selbst, was darauf hindeutet, dass eine der beiden Fragen nicht korrekt gelesen oder einfach willkürlich geantwortet wurde.

Für die Identifikation der Response-Sets im Datensatz, d.h. nach Ende der Befragung, schlägt die Methodenliteratur verschiedene Verfahren vor:

  1. Response Range: Vergleich der Standardabweichung über alle Items. Geringe Standardabweichungen weisen auf die Verwendung von Response Range hin.
  2. Straightliner: Teilen der Anzahl Male, die eine Antwortmöglichkeit (z.B. die erste Antwortmöglichkeit) gewählt wurde, durch die Anzahl der Items dieser Tabellenfrage (z.B. 5x die erste Antwortkategorie / 6 Items = 0.83) oder die Gesamtzahl Fragen im Fragebogen. Wenn der Quotient 1 beträgt, liegt Nullvarianz im Antwortverhalten vor.
  3. Extreme Checking Style: Auch hier ist der für die Straightliner unter 2. beschriebene Quotient ein guter Indikator. Wenn Extreme Checkying Style vorliegt, beträgt dieser für alle Antwortkategorien, mit Ausnahme der Extrempunkte (erste und letzte Antwortmöglichkeit), null. Für die Extrempunkte sollte ein Quotient von etwa 0.5 vorliegen.
  4. Muster-Ankreuzer: Eine anerkannte «einfache» Methode, wie bei den anderen Response-Sets, gibt es hier leider nicht.
    Wir empfehlen die Antwortzeiten für die jeweilige Tabellenfrage zu untersuchen und darin die Speeder (Befragte, deren Antwortzeit für diese Frage weniger als die Hälfte des Medians der Antwortzeit für diese Frage beträgt) zu identifizieren. Über die Funktion «Ausgefüllte (einzelne) Fragebogen anzeigen/ausdrucken («Originale» aller Teilnehmer)» unseres Tools, lassen sich anschliessend die Fragebögen der ausgewählten Teilnehmer anzeigen und einzeln von Auge auf Muster überprüfen.

Der komplette Ausschluss von Speedern von der Auswertung, ist übrigens ein Verfahren, dass in der Marktforschung regelmässig angewandt wird, um die Qualität des Datensatzes zu verbessern. Wir empfehlen jedoch, nicht blind nach der Regel «Alles, was unter der Hälfte des Medians der Bearbeitsungszeit ist, ausschliessen» vorzugehen. Gerade bei Fragebögen mit Pfaden oder Sprüngen kann die Ausfüllzeit je nach persönlicher Pfadführung dramatisch variieren. Viel mehr sollte auf den Kontext der Befragung und die Zielgruppe geachtet werden.

So empfiehlt sich das Entfernen von Speedern grundsätzlich bei Panelbefragungen, Pflichtbefragungen oder Befragungen, die öffentlich publiziert werden und einen attraktiven Incentive bieten. Weniger häufig auftreten sollten Speeder bei Befragungen von ausgewählten Gruppen wie beispielsweise Mitarbeitern oder Kunden mit engem Kontakt.

Gültige Straightliner: Nullvarianz-Antwortverhalten als Ausdruck von Validität und Reliabilität der Umfrage

Mit ihrem Artikel «Valid vs. Invalid Straightlining: The Complex Relationship Between Straightlining and Data Quality» beleuchten Kevin Reuning und Eric Plutzer einen interessanten zweiten Blickwinkel auf das Thema «Straightliner»: Gültige Straightliner als Ausdruck der Konsistenz von Itembatterien— ein Zeichen guter Datenqualität statt verschmutzter Daten.

Die Autoren argumentieren, dass in vielen gängigen Umfrageformaten ein Nullvarianz-Antwortverhalten durchaus plausibel ist. Beispielsweise sollten Teilnehmende, die nie Erfahrung mit Mobbing gemacht haben, eine Reihe an Fragen zur Erfahrung mit verschiedenen Arten von Schikanen konsequent mit «nie» beantworten.

Es ist demnach zu erwarten, dass eine Itembatterie, deren Skala das gewünschte unterliegende Merkmal mit hoher Genauigkeit misst (hohe Reliabilität und Validität), bei gewissenhaften Teilnehmenden zu einem Nullvarianz-Antwortverhalten führt, sofern die Items allesamt in dieselbe Richtung formuliert sind.

Reuning und Plutzer postulieren, dass gültiges Straightlining dann auftritt, wenn (1) Teilnehmende motiviert sind, Fragen und Antworten gewissenhaft durchzulesen und ehrlich zu beantworten und (2) daraus identische Angaben zu einer Reihe von Fragen resultieren.

In einer Reihe von Simulationen untersuchen die Autoren die Einflüsse von Validität und Reliabilität auf das Aufkommen von gültigen Straightlinern, sowie deren Auswirkung auf Auswertungen, speziell bei Regressionsanalysen.
Sie stellen fest, dass die Menge an gültigen Straightlinern mit der Validität und Reliabilität des Fragebogens und somit mit der Datenqualität steigt. Zudem ergeben Ihre Simulationen, dass das Entfernen von gültigen Straightlinern zu einer Art «Sample Selection Bias» (Stichprobenverzerrung) führt und somit die Ergebnisse von Analysen verfälscht.

Was bedeuten diese Findings nun für Ihre Umfrage und den Umgang mit Straightlinern? Grundsätzlich lassen sich aus dem Artikel zwei Hinweise für die Fragebogengestaltung und Datensatzbereinigung ableiten:

  1. Fragebogengestaltung: Bauen Sie nach Möglichkeit umgekehrt gerichtete Items in Ihre Tabellenfragen ein. Reuning und Plutzers Simulationen ergeben, dass bereits das Integrieren einer einzigen umgekehrt gerichteten Frage in eine Itembatterie bis zu 98% der gültigen Straightliner entfernt. Einzig bei Skalen mit einer Mittelkategorie, bei der eine grosse Menge der Teilnehmenden Ihre Einschätzung im Skalenmittelpunkt abgeben, büsst der Ausschluss von gültigen Straightlinern durch ein umgekehrt gerichtetes Item an Effektivität ein.
  2. Datensatzbereinigung: Das Entfernen von sämtlichen Straightlinern kann zu Stichprobenverzerrung führen. Daher sollte bei der Datensatzbereinigung überprüft werden, ob bei den betroffenen Skalen und Itembatterien ein gültiges Straightlining denkbar wäre. Zudem können weitere Kriterien (wie beispielsweise die Bearbeitungszeit der betroffenen Frage, sowie das Antwortverhalten bei ähnlichen Fragen) Hinweise darauf liefern, ob ein Straightliner durch gewissenhaftes Beantworten oder verschmutzendes Verhalten entstanden ist.

Unterstützung

Sie sind sich unsicher, ob Response Sets bei Ihrem Befragungsprojekt ein Problem darstellen oder benötigen Hilfe beim Bereinigen Ihres Datensatzes? Nehmen Sie Kontakt mit uns auf! Unsere Mitarbeiter unterstützen und beraten Sie gerne zu diesem Thema!

Literatur

Porst, Rolf (2013). Fragebogen – Ein Arbeitsbuch. Wiesbaden: Springer Fachmedien GmbH.

Jandura, Olaf (2018). «Fake Data?» in: Rössler, Patrick & Rossmann, Constanze (Hrsg.). Kumulierte Evidenzen. Seiten 207-223.

Reuning, K. & Plutzer, E. (2020). Valid vs. Invalid Straightlining: The Complex Relationship Between Straightlining and Data Quality. Survey Research Methods, 14(5), 439-459.

Teilnehmer mittels psychografischen Merkmalen vergleichbar machen

Beim Durchführen von Fragebögen wird immer ein definiertes Ziel verfolgt. Häufig geht es darum die Menschen oder ihre Meinungen besser kennen zu lernen und zu verstehen. Da aber jeder Mensch ein Individuum ist und unterschiedlichste Wertebegriffe oder Handlungsweisen pflegt, werden auch die Antworten unterschiedlich ausfallen. Es stellt sich also am Ende immer die Frage, wie man die Auswertungen kategorisieren oder die Personen dahinter in bestimmte Gruppen einteilt, um schließlich die einzelnen Gruppen von Menschen miteinander vergleichen zu können.

Ein häufiges Anwendungsfeld für solche Kategorisierungen sind Zielgruppenanalysen. Um seine Zielgruppe als Unternehmen besser kennen zu lernen, lohnt es sich mit seinen Kunden zu sprechen, herauszufinden welche Personen dahinterstecken und ihre Merkmale abzufragen. Es gibt viele verschiedene Merkmale die einen Menschen ausmachen können. Darunter sind demografische Merkmale (Alter, Geschlecht, etc.), regionale Merkmale (Wohnort, Stadttypus, etc.), verhaltensorientierte Merkmale (Preisorientierung, Mediennutzung, etc.) oder psychografische Merkmale, welche versuchen Personen nach ihren Werten, Einstellungen und Lebensstilen einzuordnen.

Um diese psychografischen Merkmale von Menschen in unterschiedliche Gruppen einzuteilen, gibt es viele verschiedene Modelle und Methoden. Vier von ihnen möchte ich ihnen kurz vorstellen:

Sinus-Milieus

Das Modell der Sinus-Milieus besteht aus zwei Dimensionen. Auf der Y- Achse befindet sich die Soziale Lage (Unter-, Mittel-, und Oberschicht) und auf der X-Achse die Grundorientierung (Tradition, Modernisierung/Individualisierung und Neuorientierung). Mittels eines quantitativen Fragebogens werden die Menschen innerhalb dieses zweidimensionalen Modelles in verschiedene zusammengehörige Gruppen unterteilt. In Deutschland ergaben sich folgenden 10 Sinus-Milieus: Konservativ-Etablierte, Liberal-Intellektuelle, Performer, Expeditive, Adaptiv-Pragmatisch, Bürgerliche Mitte, Sozialökologisches Milieu, Traditionelle, Prekäre und Hedonisten. Das Modell ermöglicht also die Personen anhand der zwei Dimensionen in unterschiedliche Gruppen mit ähnlichen Werten und Grundorientierungen einzuteilen.

Semiometrie-Modell

Durch das Semiometrie-Modell werden die Einstellungen von Personen zu 14 unterschiedlichen Wertefelder gemessen. Diese Wertefelder sind namentlich: Sozial, verträumt, erlebnisorientiert, kämpferisch, traditionsverbunden, religiös, rational, kulturell, lustorientiert, kritisch, dominant, pflichtbewusst, familiär und materiell. Mittels eines Fragebogens müssen die Personen 10 Begriffe pro Wertefeld auf einer Skala von -3 bis +3 bewerten. Eine -3 bedeutet, dass der Begriff ein sehr unangenehmes Gefühl auslöst und eine +3 ein sehr angenehmes Gefühl. Anhand dieser Punkte wird für jedes Wertefeld einen Score berechnet und die Personen können so charakterisiert und zu Gruppen zusammengefasst werden.

Roper-Consumer Styles

Der Roper-Consumer Styles oder kurz RCS liegt einem ähnlichen Konzept wie das Semiometrie-Modell zu Grunde. Ebenfalls wird die Einstellung oder die Akzeptanz von Personen zu Begriffen und Aussagen abgefragt. Die Ergebnisse werden anschließend auf einer Strukturkarte festgehalten, auf welcher die Seiten jeweils unterschiedliche Bedürfnisse darstellen. Auf der X-Achse befindet sich ein Verlauf von leidenschaftlich leben zu Frieden und Sicherheit und auf der Y-Achse ein Verlauf von Sein zu Haben. Durch die unterschiedliche Positionierung auf der Strukturkarte können die Personen in verschiedene Gruppen eingeteilt werden. Der RCS unterscheidet dabei folgende Gruppen: Träumer, Häusliche, Bodenständige, Abenteurer, Realisten, Weltoffene, Kritische und Anspruchsvolle.

Limbic-Map

Auch die Limpic- Map arbeitet mit Begriffen, Werten und Emotionen. Sie basiert auf der Funktionsweise des menschlichen Gehirns. Dabei kann das Gehirn in drei grundlegende Richtungen, Emotionen einordnen: Stimulanz, Dominanz und Balance. In einem Kreis werden die Räume zwischen diesen drei Richtungen in Abenteuer und Thrill, Disziplin und Kontrolle sowie Fantasie und Genuss eingeteilt. Anschließend werden wieder die Gruppen durch Ihre Positionierung auf dem Kreis eingeteilt. Die sogenannten Limbic Types sind folgende: Harmoniser, Offene, Hedonisten, Abenteurer, Performer, Disziplinierte und Traditionalisten.

Schlussendlich haben alle vier Modelle den gleichen Ansatz und sie versuchen Menschen in Gruppen einzuteilen um diese miteinander vergleichen zu können. Sie schaffen somit eine Grundlage für intensivere Clusteranalysen oder andere statistische Auswertungen. Eine weitere Gemeinsamkeit ist, die problemlose Umsetzung aller vier Modelle über unser Tool. Falls also auch Sie eine Zielgruppenanalyse planen, würden wir uns freuen sie an Board von onlineumfragen.com Begrüssen zu dürfen.