Problemstellung
Beim Lesen und Hören erster Eindrücke ist mir in diesen Tagen erneut aufgefallen, wie viel Gewicht sowohl der FAIRPLAY-Scoutaktion als auch den Bewertungen auf BOARDGAMEGEEK (BGG) beigemessen wird. Diese Stimmen kommen von Content-Creator*innen ebenso wie von Spieler*innen, die etwa auf Facebook ihren Unmut darüber äußern, dass sie aufgrund des BGG-Weight-Ratings ein anderes Spielerlebnis erwartet hatten. Bei mir läuten bei diesen Äußerungen stets die Alarmglocken. Ihr wisst, dass ich eine gewisse Affinität zur Statistik habe. Entsprechend vorsichtig bin ich, wenn es darum geht, auf Basis unsicherer Daten Schlüsse zu ziehen. Doch genau das sind BGG-Ratings mit wenigen Bewertungen (n < 100) und die Ergebnisse der FAIRPLAY-Scoutaktion: eine wackelige Datenbasis.
Warum das so ist und wie man besser mit ihnen umgehen könnte, erläutere ich im Folgenden. Und ich verspreche: Ich halte den Mathematik-Anteil so gering wie möglich.
Bewertungen und die Schwarmintelligenz
Grundsätzlich lassen sich zwei Arten von Brettspielbewertungen unterscheiden: Kritiker*innenurteile und Massenbewertungen. Beide haben ihre Berechtigung, haben jedoch auch sehr unterschiedliche Zugänge und liefern verschiedene Informationen. Kritiker*innenbewertungen stammen von Expert*innen, die sich ein Spiel erschließen, methodisch vergleichen und einordnen. Die Rezensionen auf diesem Blog sind ein Beispiel dafür. Ob jemand meinem Urteil vertraut, hängt davon ab, welche Qualität meinen Beiträgen und meiner Expertise beigemessen wird. Am Ende stehen eine Einzelnote und ein differenziertes Fazit.
Ganz anders funktionieren Bewertungen auf Plattformen wie BGG oder im Rahmen der FAIRPLAY-Scoutaktion. Dort ist über die Bewertenden fast nichts bekannt: weder ihr Geschmack noch ihre Erfahrung noch ihr Hintergrund. Auch werden die Bewertungen nicht begründet.
Dennoch können solche Daten wertvolle Hinweise liefern. Nämlich dann, wenn sich über viele Stimmen so etwas wie eine Massenbewertung herauskristallisiert, die sich in einem Durchschnittswert niederschlägt. Der Schwarm gelangt dann zu einer Note. Das gilt für die Gesamtbewertung ebenso wie für das Weight-Rating. Vielen ist nicht bewusst, dass auch dieses nicht von Verlagen vorgegeben wird, sondern ein Nutzer*innen generierter Wert ist. Abstimmen tun hier allerdings noch einmal deutlich weniger Personen, als es bei den Bewertungen der Fall ist. Und das ist kritisch.
Der entscheidende Punkt ist nämlich: Schwarmintelligenz funktioniert nur, wenn tatsächlich ein Schwarm vorhanden ist. Einzelne Meinungen sind so vielfältig und unterschiedlich fundiert wie in jedem gesellschaftlichen Bereich. Erst eine große Zahl an Stimmen erzeugt jene statistische Stabilität, die verlässliche Rückschlüsse erlaubt. In der Statistik fasst das zentrale Grenzwerttheorem dieses Prinzip: Bei hinreichend großer Stichprobe nähert sich der Durchschnittswert der Stichprobe dem tatsächlichen Durchschnitt der Grundgesamtheit. Die Stichproben folgen dabei einer Normalverteilung. Dieser Umstand erlaubt es, mittels Inferenzstatistik von Stichproben auf die Gesamtheit zu schließen. Und das ist auch der Grund, warum es beispielsweise bei Meinungsumfragen ausreichend ist, eine vergleichsweise kleine Menge an Personen zu befragen, um dann auf ein gesamtgesellschaftliches Bild zu kommen (sofern die Befragung sorgfältig durchgeführt wird).
Praktische Probleme
Wie äußern sich die Probleme kleiner Stichproben in der Praxis? Ein Blick auf die FAIRPLAY-SCOUTAKTION, die ich sehr schätze, zeigt das deutlich. FAIRPLAY hat die aggregierten Daten der letzten Jahre dankenswerterweise veröffentlicht.
2025 wurden dort 636 Neuheiten bewertet. Rund 75 % erhielten jedoch weniger als fünf Bewertungen. Um in die Wertung für das Treppchen zu gelangen, waren 24 Stimmen nötig – ein Ziel, das lediglich 19 der 636 Titel erreichten, also etwa 3 %.
Die Gesamtheit aller abgegebenen Stimmen erzeugt eine Verteilung, die sich durch Kennzahlen beschreiben lässt. Das am weitesten verbreitete Maß ist der „Mittelwert“ („Durchschnittswert“), – statistisch eigentlich das arithmetische Mittel, denn es ist nur ein Mittelwert aus einer Mittelwertsfamilie –, welches so ziemlich jede*r aus der Schule kennt. Es ergibt sich, indem man alle Bewertungen summiert und durch ihre Anzahl teilt. Dieses Vorgehen ist intuitiv, besitzt aber eine Schwäche: Das arithmetische Mittel reagiert empfindlich auf Ausreißer, also auf Bewertungen, die weit weg vom zentralen Wert sind. Und je kleiner die Zahl der Bewertungen, desto stärker wirkt sich jede einzelne Stimme aus.
Wie drastisch das wird, zeigt ein Beispiel:
Angenommen, ein Spiel X erhält 24 Bewertungen auf einer Skala von 1 („sehr schlecht“) bis 5 („sehr gut“). Die Stimmen lauten:
{1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5}
Das arithmetische Mittel ergibt 2,75.
Schickt ein Verlag nun zwei Freund*innen vorbei, die ebenfalls eine 5 vergeben, verändert sich die Verteilung zu:
{1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5}
Das neue Mittel liegt bei 2,92. Ein Unterschied von 0,17 – und das, obwohl nur zwei zusätzliche Stimmen abgegeben wurden. Bei der FAIRPLAY-SCOUTAKTION lagen die erstplatzierten Spiele in den vergangenen Jahren selten mehr als 0,2 Punkte auseinander. Solche Verschiebungen sind also keineswegs trivial und können die „Treppchenplätze“ der Scoutaktion leicht beeinflussen.
Das arithmetische Mittel wird erst bei vielen Bewertungen robust, weil dann einzelne Ausreißer weniger Gewicht besitzen. Wer daraus trotzdem starke Aussagen ableitet, zum Beispiel in einem Podcast, muss sich dieser Sensitivität bewusst sein. Dies gilt besonders, wenn formuliert wird, ein Spiel habe „gewonnen“ oder es handele sich um „die beliebtesten Titel der SPIEL“. Zumal den Bewertungen bei BGG und SCOUTAKTION selten ein Vergleich zu Grund liegen dürfte.
Hinzu kommt: Das arithmetische Mittel sagt nichts über die Verteilung der Werte aus. Zwei völlig unterschiedliche Bewertungsmuster können dasselbe arithmetische Mittel erzeugen.
Beispiel 1 (starke Polarisierung):
{1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5}
Beispiel 2 (homogene Mittelmäßigkeit):
{2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3}
Beide ergeben 2,75 – aber die Bewertungen sind grundverschieden.
Lösung: Streumaße
Die hier skizzierten Probleme sind natürlich sehr bekannt und Grundlagen der Statistikausbildung, oft sogar schon im Rahmen der Schulbildung. Und auch die Lösung kennen viele daher: Neben den arithmetischen Mitteln sollte mindestens ein Maß über die Verteilung mit angegeben werden („Streumaß“), idealerweise die Standardabweichung. Diese basiert auf der Varianz, also der quadratischen Abweichung der einzelnen Werte vom Durchschnitt. Die Standardabweichung beschreibt damit so etwas wie die durchschnittliche Abweichung einer Bewertung vom Mittelwert. Eine kleine Standardabweichung bedeutet, dass sich die Bewertenden weitgehend einig sind. Im polarisierten Beispiel ergibt sich sd = 1,94; im homogenen Beispiel sd = 0,04. Dieser Zusatzwert liefert erhebliche weitere Informationen, die sich auch visuell leicht darstellen ließen.
Begreife ich die Bewertungen nun nicht nur als Bewertungen einer kleinen Gruppe, sondern gehe davon aus, dass die bewertenden Personen Teil der Gesamtheit der Spieler*innenschaft sind, dann ließen sich mittels Inferenzstatistik auch Vertrauensintervalle berechnen. Diese geben an, in welchem Wertebereich der wahre Wert der Grundgesamtheit mit hoher Wahrscheinlichkeit wirklich liegt. An dieser Stelle zeigt sich dann spätestens (ich habe dies testweise berechnet), dass der Statistik bei der SCOUTAKTION – und gleichermaßen den BGG-Bewertungen – keineswegs zu vertrauen ist. Die Unterschiede sind schlicht zu klein, um belastbare Aussagen zu erlauben.
Mein Fazit
Welche Lehren ziehe ich daraus? Für mich sind sowohl BGG-Bewertungen junger Spiele als auch die SCOUTAKTION derzeit interessante, aber letztlich unverbindliche Spielereien ohne statistische Aussagekraft. Wobei ich der Scoutaktion zu Gute halten möchte, dass ja auch schon der Name keine differenzierte Bewertung verspricht. Es geht um ein Auskundschaften. Das Problem ist mehr, was hinterher (von anderen) hineininterpretiert wird. Niemand sollte sich davon leiten lassen oder Spiele allein aufgrund guter Frühwerte zum Angucken priorisieren. Und ich möchte meine Kolleg*innen aus dem Content Creator*innen Bereich ausdrücklich ermuntern, dies transparent zu kommunizieren.
Vielleicht gelingt es ja, mehr Menschen zur Teilnahme an der Scoutaktion oder zum Bewerten auf BGG zu motivieren. Denn je größer die Datenbasis, desto zuverlässiger die Ergebnisse. Zudem würde ich mir wünschen, dass bei der Veröffentlichung von Massenbewertungen diese Problematik auch von den Herausgeber*innen beschrieben wird. Bei Befragungsdaten ist es längst Standard, über die zugrunde liegende Stichprobe und deren Verteilung zu berichten. Die Angabe der jeweiligen Standardabweichungen wäre aber aus meiner Sicht das absolute Minimum.
Transparenzhinweis
Für stilistische Überarbeitungsschritte sowie das Lektorat kam nach Erstellung der Rohfassung KI-Tools zum Einsatz. Der Text, seine Argumentation und alle Inhalte wurden eigenständig verfasst.
2 Kommentare
Ein sehr interessanter Artikel. Ich sehe das Problem ähnlich. Bei ‚wenigen‘ Bewertungen/Datenpunkten sind einzelne Meinungen ggf. zu stark vertreten.
Ein paar Anmerkungen:
1. bgg ist sich bewusst, dass ‚wenige‘ Bewertungen problematisch sind. Daher wird das Rating (Mittelwert) erst ab 30 Bewertungen angezeigt (wenn das Spiel nicht ‚alt‘ ist). Die Rangliste verwendet das ‚geek rating‘, bei dem grob gesagt 100 zusätzliche 5.5 Bewertungen hinzugefügt werden.
Quelle: BGG FAQ
2. Das Wort „Schwarmintelligenz“ passt hier mMn nicht wirklich. Es handelt sich bei der Bewertung von Spielen nicht um Wissen oder eine Logikaufgabe, sondern um eine subjektive Bewertung. Das hat nichts mit „Intelligenz“ zu tun.
3. Ich glaube du meinst das ‚Gesetz der großen Zahlen‘ (bei vielen Bewertungen nähert sich der berechnete Mittelwert dem wahren Wert des Spiels) und nicht den zentralen Grenzwertsatz (die Summe vieler unabhängiger Zufallsvariablen ist fast immer normalverteilt, egal wie die einzelnen Variablen ursprünglich verteilt waren).
4. Ausreißer zu haben wenn man nur aus einer endlichen Menge (1-10) wählen kann, ist schon etwas schwerer. Dein Beispiel ist auch etwas unglücklich gewählt: Du hast vorher schon zwei 5er in den Bewertungen drin, die Hinzugefügten würde ich also nicht als Ausreißer bezeichnen. Durch die neuen Bewertungen ändert sich der Mittelwert um 6,2%, die Anzahl der Bewertungen jedoch um 8,3. Finde ich vollkommen in Ordnung.
5. Die meisten Leute haben schon Probleme mit dem Begriff „Mittelwert“, jetzt noch vorzuschlagen die Standardabweichung dazuzuschreiben würde glaube ich wenigen Leuten nutzen :-D. Hier fände ich die ‚Anzahl der Bewertungen‘ deutlich einfacher und auch hilfreich um sich ein Urteil über die ‚Qualität‘ der Metrik bilden zu können. Die und auch die komplette Verteilung der Bewertungen (was ja noch einmal deutlich aufschlussreicher ist als die Standardabweichung) kann man ja auch auf bgg sehen.
Viele Grüße
boardgametroll
Hallo boardgametroll,
danke fürs Lesen und dein Feedback. Ich antworte hier darauf:
1) Richtig, das gilt für die Bewertungen, aber zum Beispiel nicht für die Einstufung des Weights. Im Artikel (bei allen praktischen Beispielen) habe ich mich primär auf die Scoutaktion bezogen und dort findet keinerlei Korrektur statt.
2) Der Begriff Schwarmintelligenz hat keine einheitliche Definition. Ich fasse die Bewertung als eine Entscheidung für die Güte eines Brettspieles. Die kollektive Entscheidung ist nach meiner Definition damit auch Schwarmintelligenz.
3) Das Argument war ein inferenzstatistisches, darum habe ich den zentralen Grenzwertsatz genommen. Aber ja, das Gesetz der großen Zahlen wäre vielleicht eingängiger gewesen.
4) Mir ging es darum, zu zeigen, dass einige wenige Bewertungen hohen Einfluss haben können. So sehr, dass es Verschiebungen beim Ranking der Scoutaktion geben könnte. Das gelingt in dem Beispiel. Du hast recht, der Begriff des Ausreißers ist in dem Zusammenhang kritisch. Aber das ist ja eigentlich auch die Berechnung von arithmetischen Mitteln bei ordinalen Skalen 🙂
5) BGG macht das Problem nicht transparent genug aus meiner Sicht. Viel größer ist es aber bei der Scoutaktion. Es braucht einfach sehr viel mehr Erklärung und Interpretationshilfe, wenn ich Zahlen präsentiere.