Der SPIEGEL, Deutschlands selbsternannte führende Nachrichtenseite, ist ein Hort der Ahnungslosigkeit und das nicht wegen der Relotiusaffäre. Nein, die ahnungslosen Redakteure vertrauen bei Wahlen auf Umfragen, die CICERO schon 2019 als schädlich für unsere Demokratie bezeichnete.*
Nun habe ich im November des letzen Jahres einen Einblick in die Suppenküche der Wahlumfragen gegeben.** Wie jeder weiß, ist Suppenkochen keine Wissenschaft, sondern eine praktische Tätigkeit. Genauso ist das mit der Umfrageforschung. Sie ist, wenn gelungen, eine herausragende Ingenieursleistung, welche die Kritik der Kathedermethodiker blass aussehen lässt. Aber um die geht es heute nicht.
Hier geht es um die „Geiz ist geil“ Umfragen, über die CICERO zu recht herzieht. Aus aktuellem Anlass, wegen der morgigen Wahlen dazu das Wesentliche, warum der Spiegel ein Tal der Ahnungslosen ist.
Dazu ein kurzer Blick auf die Methodik der Spiegelumfragen***:
„Das Meinungsforschungsinstitut Civey arbeitet mit einem mehrstufigen voll automatisierten Verfahren. Alle repräsentativen Echtzeitumfragen werden in einem deutschlandweiten Netzwerk aus mehr als 20.000 Websites ausgespielt (»Riversampling«), es werden also nicht nur Nutzer des SPIEGEL befragt. Jeder kann online an den Befragungen teilnehmen und wird mit seinen Antworten im repräsentativen Ergebnis berücksichtigt, sofern er sich registriert hat. Aus diesen Nutzern zieht Civey eine quotierte Stichprobe, die sicherstellt, dass sie beispielsweise in den Merkmalen Alter, Geschlecht und Bevölkerungsdichte der Grundgesamtheit entspricht. In einem dritten Schritt werden die Ergebnisse schließlich nach weiteren soziodemografischen Faktoren und Wertehaltungen der Abstimmenden gewichtet, um Verzerrungen zu korrigieren und Manipulationen zu verhindern.“
Halten wir fest: wer immer auf irgendeiner Website auf die Civey-Werbung stößt, kann sich registrieren und an Umfragen teilnehmen. Civey bastelt sich zuvor ein kleines Modell der deutschen Gesellschaft an Hand von Alter, Geschlecht (wie vielen Geschlechtern?), Stadt-Land (Bevölkerungsdichte) usw. Wer da nicht hineinpasst, kommt nicht in die Auswertung (dessen Stimme wird weggeworfen). Ein zweites Modell, das man nur erahnen kann, nimmt sich wahrscheinlich alte Umfragen vor und schaut dort nach Zusammenhängen zwischen Einstellungen (Civey nennt das Wertvorstellungen, was ein Graus) und Verhalten. Wenn also das Wählen der FDP irgendwie mit Freude am Denken korreliert (statistisch zusammenhängen könnte), oder das Wählen der SPD mit Freude am Wein, das der CDU mit Freude am Pfeffer, das der Grünen mit Badefreuden, der Linken mit Lippenstiftnutzung oder ähnlichem Unsinn der aus den den Daten herausploppt, schlägt das Civey Modell „automatisch“ zu. Wobei „automatisch“ schlicht ein Synonym für „Computerprogramm“ ist, das Menschen gemacht haben. Mit dem „Zuschlagen“ ist die wundersame Vermehrung oder Verminderung einer Person gemeint. Wenn eine Person 1 ist, dann sind zwei Personen 2. Soweit so gut. Wenn jedoch in dem Menschenkonglomerat, von Civey Stichprobe genannt, zu wenige Lippenstiftnutzende mögliche Linke sind, dann werden diese rechnerisch aufgeblasen: sie sind dann nicht mehr 1 sondern etwa 1,3. Zugleich werden die weinseligen SPDler reduziert auf, sagen wir 0,9, weil es von denen zu viele gibt. Das wird, wie Sie sich vorstellen können, ein ziemlich undurchsichtiges rauf- und runterrechnen, wenn Sie an die anderen Parteien denken. Irgendwann ist dann aber Schluss damit und es stehen da dann irgendwelche Zahlen auf dem Bildschirm.
Und da wird es dann richtig lustig. Der Spiegel berichtet am 10. März 2021 ein „Kopf an Kopf Rennen „ zwischen SPD und CDU in Rheinland-Pfalz (wann gab es die letzte „klare Wahl“ in Deutschland) 31% zu 30%. Aha, sagt der kleine Statistiker, das ist doch völliger Unsinn, denn „statistisch“ gesehen geht das nicht. Der berechnete Unterschied liegt doch im Unschärfebereich der Statistik, oder? Ja und Nein. Ja, wenn Civey eine sogenannte Zufallsstichprobe, besser „Wahrscheinlichkeitsstatistische Stichprobe Nach Neyman-Pearson“, gezogen hätte. Dann liesse sich ein Stichprobenfehler berechnen, der im übrigen immer wesentlich kleiner ist als die gesamte Ungenauigkeit einer Umfrage (Total Survey Error, lässt sich bingen oder googeln). Civey macht das aber nicht, wie oben ausgeführt. Civey macht eine Quotenstichprobe mit preiswertem Internetfischzug. Da kann man keinen Stichprobenfehler berechnen. Geht einfach nicht, auch wenn Civey sagt: „In unseren Grafiken ist der statistische Fehler als farbiges Intervall dargestellt.“ Wie gesagt, Geiz ist geil, aber so billig kommen die uns nicht davon.
Denn, mit Schlagwörtern wie „automatisch“, „Internet“, „viele Leute“, „statistischer Fehler“ kann man zwar Spiegelredakteuren etwas vormachen, nicht aber Ihnen, nachdem sie CICERO und das hier gelesen haben. Schade um das Geld.
Was heißt das nun für das Wahlergebnis in Rheinland-Pfalz oder Baden-Württemberg? Hier gehe ich einen Schritt zurück zur Ingenieursleistung der Umfrageforschung. Das Modell, das ich mir von Deutschland mache, beruht auf langer Erfahrung mit Wahlen, Umfragen und dem Leben in Deutschland. Erfahrung hat gelegentlich den Nachteil, dass sie blind gegen Neues macht. Das Neue ist Corona. So ein Jahr wie das letzte sprengt unsere Erfahrung. Wir wissen nicht, ob die alten Zusammenhänge von Pfeffer, Wein oder Lippenstift mit Parteien noch gelten. Das müssen wir erst noch erfahren. Weil die Computerprogramme von Civey und anderen diese neue Erfahrung noch nicht enthalten, sind sie prinzipiell falsch. Und damit sind auch die Ergebnisse der sogenannten Umfragen nur mit spitzen Fingern in feuerfesten Handschuhen anzufassen.
Wenn es morgen für die Umfragen nach Civey et al. „gut“ geht, war das reines Glück, keine Ingenieurskunst. Wenn es nicht „gut“ geht? Sie sind gewarnt. In diesem Sinne, bleiben Sie negativ.
Peter Mohler
* Thomas Perry 2019 in www.cicero.de/wirtschaft/civey-yougov-umfragen-meinungen-empirie-methoden-demokratie
** https://blog4587.eu/soziologen-welt/wer-umfragt-kann-sich-irren/
*** https://www.spiegel.de/backstage/die-methodik-hinter-den-civey-umfragen-a-b50353b3-b072-43c8-ab70-7fab20d48710
Schlagwort: Prognosen
Dreißig Tage vor dem 30. Januar 1933 schrieb die Frankfurter Zeitung in einem Rückblick auf das vorangegangene Jahr 1932: „… so ist im Verlauf des beendeten Jahres tatsächlich eine …. politische Entspannung von großer Bedeutung eingetreten: der gewaltige nationalsozialistische Angriff auf den demokratischen Staat ist abgeschlagen und durch einen mächtigen Gegenangriff aus der Sphäre Papen-Schleicher beantwortet worden… der aber in die Reihen der NSDAP große Verwirrung getragen hat: Millionen von Anhängern sind dieser Partei verloren gegangen… Die Parteien haben erneut gelitten in diesem Jahr, … aber die Demokratie hat nicht weiter gelitten; sie hat während des letzten Jahres geradezu einen Triumph erlebt. … Denn die politische Grundtendenz wird bestimmt durch die Tatsache der Entzauberung der NSDAP.“*
In den folgenden drei Monaten, genauer 83 Tagen, wurde die deutsche Demokratie zerlegt und abgeschafft. Am 4. Januar traf sich Papen mit Hitler, um den amtierenden Kanzler Schleicher zu stürzen. Weitere Gespräche folgten, bis dann Staatspräsident Hindenburg Adolf Hitler am 30. Januar zum Reichskanzler ernannte. Zwei Tage später löste Hindenburg den Reichstag auf. Nach weiteren drei Tagen wurde die Kommunistische Partei per Verordnung verboten, drei Wochen später, nach dem Brand des Reichstages, wurden am 28. Februar die Bürgerrechte abgeschafft. Am 5. März, 35 Tage nach Amtsantritt Hitlers, fanden Neuwahlen statt, die nicht mehr frei waren. 14 Tage später trafen die ersten Gefangenen im KZ Dachau ein (22. März 1933), zwei Tage später wurde die Diktatur mit dem Ermächtigungsgesetz festgeschrieben.
Nach nur 83 Tagen war das Schicksal der deutschen Demokratie besiegelt.
Morgen ist wieder ein 30. Januar. Ein Tag, an dem wir uns an unser eigenes und vergangenes „Schöndenken und Schönreden“ der Gegenwart erinnern sollten und bescheiden werden bezüglich unserer Weisheit, die Welt zu verstehen.
Peter Mohler
* Frankfurter Zeitung, 1. Januar 1933, zitiert nach: Peter Ph. Mohler, Abitur 1917-1971, Frankfurt: Peter Lang, 1978, S. 12f, Hervorhebungen im Original
Und wieder ist es passiert. Wieder hat die amerikanische Umfrageforschung in einer wichtigen Wahl entscheidende Veränderungen in der Gesellschaft verpasst: Florida!
Wie gesagt, wer umfragt, kann irren, aber bitte nicht schon wieder, stöhnt der geplagte Bürger.
Zur Verteidigung wird vorgetragen, die „Modelle“ seien verbessert worden, man habe auch verstärkt auf „Bildung“ geachtet, aber es habe nicht gereicht. Das reicht nicht.
Was kann ich zur Verteidigung der Umfrageforschung vorbringen? Denn sie funktioniert. Immer dann, wenn sie ihren Kopf einschaltet, Lehrbuch nur als Grundlage, nicht als Bibel verwendet und dazu noch die Glaceehandschuhe aus- und die Gummistiefel für die Feldarbeit anzieht („Feld“ war der Fachbegriff für das Abklappern von staubigen Straßen und Gassen, um Bürgerinnen zu befragen – heute ist das alles elektronisch steril). Oder wie Luther dem Volk aufs Maul schaute, also anstelle von „Probanden“ Menschen um Mithilfe bei einer Umfrage zu bitten.
Weil’s im Lehrbuch steht, wird immer und ewich (ja mit ch) geschaut, wie Geschlecht, Alter und Bildung als „Verursacher“ einer Meinung, Werthaltung oder gar Handlung befragter Menschen funktionieren („demographische Merkmale“). Das ergibt oft Sinn, vor allem dann, wenn es gute Gründe für die Annahme der Wirkung von Alter auf ein Verhalten gibt (z.B. unterschiedliche Formen der abendlichen Betätigung). Noch viel öfter ergibt das keinen Sinn mehr, weil alte festgefressene Sozialstrukturen neuen Lebensformen gewichen sind (wie die Konsumstilforschung herausgefunden hat).
Und dann gibt es noch etwas. Was, wenn sich hinter so einem demographischen Merkmal mehr als nur eine Gruppe verbirgt? Dazu gibt es ein amerikanisches Beispiel: Zu den üblichen verdächtigen demographischen Merkmalen gehört in den USA das klebrige Merkmal „Race“ (oft „Black, White, Latino, Other“). Zur Freude der Routiniers liefert das Merkmal „Black“ fast immer schöne Unterschiede zu „White“. (Empfehlung der Redaktion: bevor Sie weiterlesen, genehmigen Sie sich einen Schluck der ehemaligen Whiskeykultmarke). Bereit?
In den üblichen Umfragen von 1.000, 2.000 Teilnehmern sind nicht genügend „Black“, um diese Gruppe detailliert zu betrachten. 1994 aber hat der General Social Survey (kann man googeln) extra mehr „Black“ gesucht und gefunden, um etwas genauer hinschauen zu können. Da hat man dann u.a. auch gefragt “When you think of social and political issues, do you think of yourself mainly as a member of a particular ethnic, racial, or nationality group or do you think of yourself mainly as just an American?” (Kurzfassung: Wenn sie über unsere Gesellschaft nachdenken, tun Sie das dann als Amerikaner(in) oder als Angehöriger einer anderen ethnischen Gruppe?). Da hat es dann richtig geknallt: von den „Black“ antworteten 28%, sie dächten an eine andere ethnische Gruppe, von den „White“ magere 3%. Anders gesagt, ein Drittel der „Black“ Teilnehmer denkt nicht im Sinne von „just an American“. Was machen wir damit?
Wir bilden vier neue Gruppen: „Just American/White“, „Just American/Black“, „Andere White“ und „Andere Black“. So: und jetzt kommt das, wofür Sie, hoffentlich, einen tiefen Schluck „Black and White“ getrunken haben: Untersucht man verschiedene politische Meinungen für jede Gruppe, dann findet man keinen Unterschied zwischen den beiden ersten „Just American“ Gruppen, während sich der Unterschied zu „Andere Black“ erheblich vertieft.
Anders gesagt: Während die „White“ Gruppe sehr homogen zu sein scheint, zerfällt die „Black“ Gruppe in zwei Teile. Der Witz ist, dass die „White“ fast immer so antworten, als seien sie „Just Black“ (Blackwashing?) und natürlich anders herum (Whitewashing). Kurz, der behauptete allgemeine Unterschied zwischen „Afro-Amerikanern und Weißen“ ist eine Erfindung der Umfrageforschung. Dass und warum ein Drittel der Afro-Amerikaner anders denkt, als der große Rest, das, und nur das sollte einem zum Denken bringen.
Was haben wir gelernt? Hinter scheinbar einfachen demographischen Merkmalen verbirgt sich doch komplexere Realität, der man nur beikommt, wenn man seinen Kopf einschaltet, so wie der General Social Survey. Aber dafür ist in der Hektik der Wahlforschung wahrscheinlich keine Zeit. Stattdessen schnitzt man sich lieber ein neues Modell und gibt magersüchtige Prognosen ab. In diesem Sinne bis zur nächsten Wahl.
Peter Mohler
Neueste Kommentare