Wilder Südwesten

Schlagwort: Umfrageforschung

Kopfarbeit und Wahlprognosen

Und wieder ist es passiert. Wieder hat die amerikanische Umfrageforschung in einer wichtigen Wahl entscheidende Veränderungen in der Gesellschaft verpasst: Florida!
Wie gesagt, wer umfragt, kann irren, aber bitte nicht schon wieder, stöhnt der geplagte Bürger.
Zur Verteidigung wird vorgetragen, die „Modelle“ seien verbessert worden, man habe auch verstärkt auf „Bildung“ geachtet, aber es habe nicht gereicht. Das reicht nicht.
Was kann ich zur Verteidigung der Umfrageforschung vorbringen? Denn sie funktioniert. Immer dann, wenn sie ihren Kopf einschaltet, Lehrbuch nur als Grundlage, nicht als Bibel verwendet und dazu noch die Glaceehandschuhe aus- und die Gummistiefel für die Feldarbeit anzieht („Feld“ war der Fachbegriff für das Abklappern von staubigen Straßen und Gassen, um Bürgerinnen zu befragen – heute ist das alles elektronisch steril). Oder wie Luther dem Volk aufs Maul schaute, also anstelle von „Probanden“ Menschen um Mithilfe bei einer Umfrage zu bitten.
Weil’s im Lehrbuch steht, wird immer und ewich (ja mit ch) geschaut, wie Geschlecht, Alter und Bildung als „Verursacher“ einer Meinung, Werthaltung oder gar Handlung befragter Menschen funktionieren („demographische Merkmale“). Das ergibt oft Sinn, vor allem dann, wenn es gute Gründe für die Annahme der Wirkung von Alter auf ein Verhalten gibt (z.B. unterschiedliche Formen der abendlichen Betätigung). Noch viel öfter ergibt das keinen Sinn mehr, weil alte festgefressene Sozialstrukturen neuen Lebensformen gewichen sind (wie die Konsumstilforschung herausgefunden hat).
Und dann gibt es noch etwas. Was, wenn sich hinter so einem demographischen Merkmal mehr als nur eine Gruppe verbirgt? Dazu gibt es ein amerikanisches Beispiel: Zu den üblichen verdächtigen demographischen Merkmalen gehört in den USA das klebrige Merkmal „Race“ (oft „Black, White, Latino, Other“). Zur Freude der Routiniers liefert das Merkmal „Black“ fast immer schöne Unterschiede zu „White“. (Empfehlung der Redaktion: bevor Sie weiterlesen, genehmigen Sie sich einen Schluck der ehemaligen Whiskeykultmarke). Bereit?
In den üblichen Umfragen von 1.000, 2.000 Teilnehmern sind nicht genügend „Black“, um diese Gruppe detailliert zu betrachten. 1994 aber hat der General Social Survey (kann man googeln) extra mehr „Black“ gesucht und gefunden, um etwas genauer hinschauen zu können. Da hat man dann u.a. auch gefragt “When you think of social and political issues, do you think of yourself mainly as a member of a particular ethnic, racial, or nationality group or do you think of yourself mainly as just an American?”  (Kurzfassung: Wenn sie über unsere Gesellschaft nachdenken, tun Sie das dann als Amerikaner(in) oder als Angehöriger einer anderen ethnischen Gruppe?). Da hat es dann richtig geknallt: von den „Black“ antworteten 28%, sie dächten an eine andere ethnische Gruppe, von den „White“ magere 3%. Anders gesagt, ein Drittel der „Black“ Teilnehmer denkt nicht im Sinne von „just an American“. Was machen wir damit?
Wir bilden vier neue Gruppen: „Just American/White“, „Just American/Black“, „Andere White“ und „Andere Black“. So: und jetzt kommt das, wofür Sie, hoffentlich, einen tiefen Schluck „Black and White“ getrunken haben: Untersucht man verschiedene politische Meinungen für jede Gruppe, dann findet man keinen Unterschied zwischen den beiden ersten „Just American“ Gruppen, während sich der Unterschied zu „Andere Black“ erheblich vertieft.
Anders gesagt: Während die „White“ Gruppe sehr homogen zu sein scheint, zerfällt die „Black“ Gruppe in zwei Teile. Der Witz ist, dass die „White“ fast immer so antworten, als seien sie „Just Black“ (Blackwashing?) und natürlich anders herum (Whitewashing). Kurz, der behauptete allgemeine Unterschied zwischen „Afro-Amerikanern und Weißen“ ist eine Erfindung der Umfrageforschung. Dass und warum ein Drittel der Afro-Amerikaner anders denkt, als der große Rest, das, und nur das sollte einem zum Denken bringen.
Was haben wir gelernt? Hinter scheinbar einfachen demographischen Merkmalen verbirgt sich doch komplexere Realität, der man nur beikommt, wenn man seinen Kopf einschaltet, so wie der General Social Survey. Aber dafür ist in der Hektik der Wahlforschung wahrscheinlich keine Zeit. Stattdessen schnitzt man sich lieber ein neues Modell und gibt magersüchtige Prognosen ab. In diesem Sinne bis zur nächsten Wahl.
Peter Mohler

Wer umfragt kann sich irren

Nein, kein Schreibfehler, nein, es soll nicht „herumfragen“ heißen, auch wenn sich die Sache für manchen so anfühlen mag. Mit „Umfragen“ sind gemeint: Techniken zur Feststellung der Anzahl von Meinungen, Wertvorstellungen, Verhalten in der Bevölkerung. Diese Techniken gehören zur Empirischen Sozialforschung, gelegentlich auch als Demoskopie bezeichnet.
Erstaunlich, was diese Technik kann. Dass von 66 000 000 (sechsundsechzig Millionen) Erwachsenen in Deutschland 13 000000 (dreizehn Millionen) nicht an Gott glauben, weiß man mit ziemlicher Gewissheit, wenn man nur 1 000 (tausend) Erwachsene danach fragt.
Hokuspokus? Nein, Wissenschaft, nämlich die von der Stichprobe. Und da hat man etwas Verwunderliches gefunden, was jeder Suppenkoch intuitiv weiß: Die Größe des Löffels zum Probieren hängt nicht von der Größe des Suppentopfes ab. Ob 10, 100 oder 1000 Liter Suppe, der normale Suppenlöffel reicht zum Probieren aus. Es muss nicht die Kelle sein, aber ein Teelöffel reicht dann auch nicht. Irgendwo zwischen Teelöffel und Kelle gibt es eine optimale Probierlöffelgröße, die auch beim größten Topf zuverlässig den Salzgeschmack zu prüfen erlaubt: der Suppenlöffel. Die Prüfung wird nicht besser, wenn wir den Löffel zur Kelle aufblasen. Sie wird nur kostspieliger, weil wir mehr Suppe zum Probieren herausnehmen. Geil, gell!
Für die Umfrage hat man herausgefunden, dass die ausreichende Probiergröße  etwa 1000 Leute umfasst, wenn man die per Zufall aussucht  (https://www.surveymonkey.com/curiosity/how-many-people-do-i-need-to-take-my-survey/)
Und so macht man das dann, theoretisch. 
Praktisch geht das nicht so leicht. Weil, ja weil die Welt kein gut umgerührter Suppentopf ist. In der gesellschaftlichen Wirklichkeit klebt ein Teil am Boden, ein anderer am Rand, Brocken schwimmen unregelmäßig herum, ein Teil flutscht immer vom Löffel, kurz: Nichts ist homogen oder gleichförmig, sondern bestenfalls geschichtet oder geklumpt. Eine ziemlich trübe Brühe diese Wirklichkeit.
Wieso sagen die Wahlprognostiker dann doch so oft ein Wahlergebnis ordentlich voraus und wieso geht das Geschäft dann wieder mal voll daneben? Im Prinzip ist es wie beim Suppenkochen: die erste glückt oft nicht, mit der Zeit bekommt man Erfahrung und mischt die Zutaten immer besser. Versalzen wird sie dann nur noch im Liebesfall oder durch Schlamperei. So geht das auch bei den Wahlen. Nach 50 und mehr Wahlen in einem Land weiß man, wo die roten, grünen, schwarzen, gelben, blauen und blöden Klumpen sind und korrigiert seine Daten entsprechend. Ein guter Statistiker überlässt wenn nur irgend möglich nichts dem Zufall. Deshalb steckt er alles Wissen über frühere Wahlen in ihre Stichprobe – dass bestimmte Wahlkreise typisch sind, dass alle großen Städte eingeschlossen werden, kein Bundesland vergessen wird und so weiter. Erst ganz zum Schluss, wenn man sich zwischen verschiedenen Haushalten in einer Straße oder einem Stadtteil entscheiden muss, wird gelost. Das nennt sich „geschichtete Stichprobe“ – in ihr ist die ganze Wahl-Geschichte des Landes berücksichtigt. Aber das reicht nicht. Denn an zwei weiteren Stellen kommt die Wirklichkeit der Wahlforschung in die Quere. Die erste sind wir Bürger. Nicht immer haben wir Zeit, uns befragen zu lassen. Also nehmen von 1000 ausgewählten Haushalte nicht alle Teil. Das wäre nicht so schlimm, wenn man ganz einfach diejenigen, die keine Zeit für Umfragen haben, durch solche ersetzt, die Zeit haben. Aber, oh weh, woher weiß ich, ob beide Gruppen das gleiche Wahlverhalten haben? Bis heute gibt es kein allgemeingültiges System, wie man damit vernünftig umgeht. Und wieder sind wir in der Suppenküche: Die erfahrene Köchin greift in ihre Trickkiste (geheim, natürlich) und macht die Suppe essbar, so Gott will. In der Wahlforschung nennt sich das verharmlosend „gewichten“. Wenn das mehr oder weniger gelungen ist, dann kommt dem Forscher das Wahlrecht in die Quere. In Amerika ist das zum Beispiel die von Bundestaat zu Bundestaat unterschiedliche Art die Wahlpersonen (Wahlmänner) zu bestimmen. Bekanntlich hatte Trump bei seiner letzten Wahl 3 000 000 (drei Millionen) Stimmen weniger, am Schluß aber die Mehrheit der Wahlpersonen. In Deutschland sind das die Überhangmandate, die erst nach der Wahl berechnet werden. Damit ist die Zahl der Parlamentssitze vor der Wahl unbekannt. Wenn sich da viel tut, können Effekte wie bei der Trump-Wahl auftreten. Unglaublich, wie die Wahlforschung auch das so oft in den Griff bekommt, es sei denn…
Es sei denn sie stolpert über ihre eigenen Füße, meistens als „Geiz ist geil“ Effekt. Irgendwann mal wurde in England wieder ein Kopf-an-Kopf-Rennen ausgerufen (verkauft sich besser in der Zeitung), wobei Labour mit einer Kopflänge in den Umfragen voran lag (zur Kopflänge kommen wir noch mal am Schluss). Geizig wie die Engländer sind, sparten viele Umfrager es sich, an der Haustür zu klingeln und zu warten bis eine aufmacht. War es doch einfacher die Leute auf der Straße anzusprechen. Dummerweise gingen im Winter weniger ältere Leute auf die Straße. Blöd, dass die eher konservativ wählten. Das gab dann auch eine heftige Bruchlandung für die Wahlforschung. Die Trump-Wahl dagegen war ein Beispiel für gesellschaftliche Veränderungen, die der bisherigen Wahlgeschichte eine andere Wendung gaben. Hier war es nicht nur der Geiz, sondern die festgefressene Borniertheit der Forscher. Sie haben die beobachtbaren Veränderungen „weggewichtet“, anders gesagt, Demoskopen, die den Kontakt zur Bevölkerung verloren hatten, machten sich selber blind.
Um das Wunder der zutreffenden Wahlprognose zu einem Superwunder zu machen, müssen wir uns noch kurz die Pferdekopflängen betrachten. Wie jeder weiß oder gleich wissen wird, gibt es keine absolut „richtige“ Messung. Beim Bau genügt beispielsweise der Faltmeter, beim Computerbau braucht man das Rastermikroskop. In der Umfrageforschung handelt man mit Ungenauigkeiten von 3-5% (sehr hoffnungsvoll, übrigens). Will heißen, dass die eingangs erwähnten 13 Millionen eigentlich plus/minus 650 000 lauten sollte. Oder in Prozenten ausgedrückt: In Deutschland 2018 zwischen 15 und 25 Prozent der Erwachsenen nicht an Gott glauben. Übertragen auf die Wahlforschung bedeutet dies, dass eine Aussage „die SPD liegt 2 Prozent vor der AfD“ bei der bekannten statistischen Ungenauigkeit Unsinn ist.

Fassen wir zusammen: Von der schlichten Idee der Suppenstichprobe bis zur Ungenauigkeit aller statischen Messungen ist es ein weiter, steiniger Weg. Das Superwunder der Umfrageforschung ist: Sie irrte sich relativ selten. Leider zu oft, wenn es wichtig wird.
Peter Mohler

Wahlprognosen als Räuberpistole

Wie der gebildete Mensch weiß, ist jede Messung mit Ungenauigkeit verbunden. Je nach Verwendungszweck nehmen wir deshalb angemessene Messgeräte. Ein Fieberthermometer eignet sich nicht, die Kochtemperatur zu messen, mit einem Faltmeterstab kann man bauen, aber für die Computerplatinen ist er zu grob.
So weit so gut. Schauen wir uns mal die Wahlprognosen an (verschämt werden sie auch „Projektionen“ genannt). Sind wir nicht überrascht, wie genau die so oft sind und maßlos enttäuscht, wenn sie voll daneben liegen? Was ist da bloß los?
Wahlprognosen werden auf der Basis von Umfragen gemacht und die haben eine begrenzte Genauigkeit. Gerne behaupten die Prognostiker, es gäbe eine Ungenauigkeit von +/- 3%. Das ist Lehrbuchhokuspokus. Diese Zahl ist aus dem Lehrbuch der Statistik gegriffen, wo über ideale Bedingungen für Stichproben nachgedacht und die wissenschaftliche Grundlage dafür gelegt wird. Das ist dann der sogenannte „Stichprobenfehler“.
Im Umfragealltag spielt dieser jedoch die kleinste Rolle. Er lässt sich relativ einfach berechnen, deshalb wird er genannt. Die Summe aller Fehlerquellen ist dagegen extrem schwer zu benennen, aber die entscheidet letztlich über die Genauigkeit der Prognose. Zu den Fehlern gehören u.a.: falsche Person befragt, Interviewer trägt falschen Wert in Fragebogen ein, Befragte verstehen Frage falsch, die Frage selbst ist Quatsch, beim Übertragen der Fragebögen in Dateien werden Fälle verwechselt, beim Überprüfen der Daten werden diese mit nicht zutreffenden Werten überschrieben und so weiter und so fort.
In der Praxis bedeutet dies, dass der „reine Stichprobenfehler“ auch nur erlaubt zu sagen: „zwischen 11 und 17 Prozent wählen SPD oder AFD“ und „zwischen 15 und 21 Prozent wählen Grüne“, was zusammengefasst bedeutet: es ist sehr wahrscheinlich, dass es statistisch gesehen keine Unterschiede zwischen den drei Parteien gibt.
Und dennoch wird das veröffentlicht und veröffentlicht, und oft trifft das dann auch im Wahlergebnis (wo gezählt und nicht gemessen wird) zu. Rein statistisch gesehen kann das nicht sein (es gibt genügend wütende Polemiken von Statistikern darüber. Wahrscheinlich, weil sie ihre Wissenschaft missbraucht sehen.)
Wie so oft im Leben, wenn die wissenschaftliche Erkenntnis nicht ausreicht, hilft uns die Technik aus der Patsche, indem der reine Zufall (Statistik) ergänzt wird um praktisches Lebenswissen (Empirie, Wahlgeschichte). In einem anderen Blog werde ich beschreiben, was da alles dazwischen kommen kann. Aber hier soll es beim Lob der Umfragetechniker bleiben, die unglaublich genaue Prognosen erstellen können.
Ob die dann veröffentlicht werden, steht auf einem anderen Blatt, das ich jetzt aufschlagen will. Umfragetechniker sind im Allgemeinen vorsichtige Leute, die Ihre Ergebnisse mit vielen Fußnoten einordnen. Veröffentlicher von Umfrageergebnissen sind im allgemeinen Aufmerksamkeit heischende Nachrichtenschreier. Eine Nachricht, AfD, SPD und Grüne liegen in Umfragen ununterscheidbar nebeneinander, hat nur begrenzten Nachrichtenwert. Ok, damit könnte man leben, wenn es nicht die andere Seite gäbe: die Räuberpistolen über den Wahlsieg einer Gruppe, obwohl man nix Genaues weiß und nur viele Herumrechnereien einem das vorgaukeln. So geschehen zuletzt beim Brexit und Trump, früher bei einer britischen Wahl. Das ist unzulässige Wahlbeeinflussung. Punkt. Genauso schlimm sind die ewigen Kopf-an-Kopf Rennen. Denken Sie mal nach, wie oft das in den letzten Jahren das Dauerthema einer Wahlberichterstattung war. Wenn es nicht zwei Parteien sind, dann wenigstens zwei Parteienblöcke, und seien die so tolldreist zusammengesetzt wie man sich das denken kann. Hauptsache Kopf-an-Kopf. Öde auf die Dauer, nicht wahr.
Was machen als Konsument? Verzicht auf Räuberpistolen-Wahlprognosen? Igitt, schon wieder Verzicht, Nein! Genießen wir die müden Anstrengungen, müde Wahlen munter zu machen. Wählen wir die, die wir wollen und freuen uns, wenn sie gewinnen. Und wenn dann die Prognosen doch zutrafen, ein Prosit auf die Wahlforschung!

Peter Mohler

© 2021 Blog4587

Theme von Anders NorénHoch ↑