Problemstellung
Beim Lesen und Hören erster Eindrücke ist mir in diesen Tagen erneut aufgefallen, wie viel Gewicht sowohl der FAIRPLAY-Scoutaktion als auch den Bewertungen auf BOARDGAMEGEEK (BGG) beigemessen wird. Diese Stimmen kommen von Content-Creator*innen ebenso wie von Spieler*innen, die etwa auf Facebook ihren Unmut darüber äußern, dass sie aufgrund des BGG-Weight-Ratings ein anderes Spielerlebnis erwartet hatten. Bei mir läuten bei diesen Äußerungen stets die Alarmglocken. Ihr wisst, dass ich eine gewisse Affinität zur Statistik habe. Entsprechend vorsichtig bin ich, wenn es darum geht, auf Basis unsicherer Daten Schlüsse zu ziehen. Doch genau das sind BGG-Ratings mit wenigen Bewertungen (n < 100) und die Ergebnisse der FAIRPLAY-Scoutaktion: eine wackelige Datenbasis.
Warum das so ist und wie man besser mit ihnen umgehen könnte, erläutere ich im Folgenden. Und ich verspreche: Ich halte den Mathematik-Anteil so gering wie möglich.
Bewertungen und die Schwarmintelligenz
Grundsätzlich lassen sich zwei Arten von Brettspielbewertungen unterscheiden: Kritiker*innenurteile und Massenbewertungen. Beide haben ihre Berechtigung, haben jedoch auch sehr unterschiedliche Zugänge und liefern verschiedene Informationen. Kritiker*innenbewertungen stammen von Expert*innen, die sich ein Spiel erschließen, methodisch vergleichen und einordnen. Die Rezensionen auf diesem Blog sind ein Beispiel dafür. Ob jemand meinem Urteil vertraut, hängt davon ab, welche Qualität meinen Beiträgen und meiner Expertise beigemessen wird. Am Ende stehen eine Einzelnote und ein differenziertes Fazit.
Ganz anders funktionieren Bewertungen auf Plattformen wie BGG oder im Rahmen der FAIRPLAY-Scoutaktion. Dort ist über die Bewertenden fast nichts bekannt: weder ihr Geschmack noch ihre Erfahrung noch ihr Hintergrund. Auch werden die Bewertungen nicht begründet.
Dennoch können solche Daten wertvolle Hinweise liefern. Nämlich dann, wenn sich über viele Stimmen so etwas wie eine Massenbewertung herauskristallisiert, die sich in einem Durchschnittswert niederschlägt. Der Schwarm gelangt dann zu einer Note. Das gilt für die Gesamtbewertung ebenso wie für das Weight-Rating. Vielen ist nicht bewusst, dass auch dieses nicht von Verlagen vorgegeben wird, sondern ein Nutzer*innen generierter Wert ist. Abstimmen tun hier allerdings noch einmal deutlich weniger Personen, als es bei den Bewertungen der Fall ist. Und das ist kritisch.
Der entscheidende Punkt ist nämlich: Schwarmintelligenz funktioniert nur, wenn tatsächlich ein Schwarm vorhanden ist. Einzelne Meinungen sind so vielfältig und unterschiedlich fundiert wie in jedem gesellschaftlichen Bereich. Erst eine große Zahl an Stimmen erzeugt jene statistische Stabilität, die verlässliche Rückschlüsse erlaubt. In der Statistik fasst das zentrale Grenzwerttheorem dieses Prinzip: Bei hinreichend großer Stichprobe nähert sich der Durchschnittswert der Stichprobe dem tatsächlichen Durchschnitt der Grundgesamtheit. Die Stichproben folgen dabei einer Normalverteilung. Dieser Umstand erlaubt es, mittels Inferenzstatistik von Stichproben auf die Gesamtheit zu schließen. Und das ist auch der Grund, warum es beispielsweise bei Meinungsumfragen ausreichend ist, eine vergleichsweise kleine Menge an Personen zu befragen, um dann auf ein gesamtgesellschaftliches Bild zu kommen (sofern die Befragung sorgfältig durchgeführt wird).
Praktische Probleme
Wie äußern sich die Probleme kleiner Stichproben in der Praxis? Ein Blick auf die FAIRPLAY-SCOUTAKTION, die ich sehr schätze, zeigt das deutlich. FAIRPLAY hat die aggregierten Daten der letzten Jahre dankenswerterweise veröffentlicht.
2025 wurden dort 636 Neuheiten bewertet. Rund 75 % erhielten jedoch weniger als fünf Bewertungen. Um in die Wertung für das Treppchen zu gelangen, waren 24 Stimmen nötig – ein Ziel, das lediglich 19 der 636 Titel erreichten, also etwa 3 %.
Die Gesamtheit aller abgegebenen Stimmen erzeugt eine Verteilung, die sich durch Kennzahlen beschreiben lässt. Das am weitesten verbreitete Maß ist der „Mittelwert“ („Durchschnittswert“), – statistisch eigentlich das arithmetische Mittel, denn es ist nur ein Mittelwert aus einer Mittelwertsfamilie –, welches so ziemlich jede*r aus der Schule kennt. Es ergibt sich, indem man alle Bewertungen summiert und durch ihre Anzahl teilt. Dieses Vorgehen ist intuitiv, besitzt aber eine Schwäche: Das arithmetische Mittel reagiert empfindlich auf Ausreißer, also auf Bewertungen, die weit weg vom zentralen Wert sind. Und je kleiner die Zahl der Bewertungen, desto stärker wirkt sich jede einzelne Stimme aus.
Wie drastisch das wird, zeigt ein Beispiel:
Angenommen, ein Spiel X erhält 24 Bewertungen auf einer Skala von 1 („sehr schlecht“) bis 5 („sehr gut“). Die Stimmen lauten:
{1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5}
Das arithmetische Mittel ergibt 2,75.
Schickt ein Verlag nun zwei Freund*innen vorbei, die ebenfalls eine 5 vergeben, verändert sich die Verteilung zu:
{1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5}
Das neue Mittel liegt bei 2,92. Ein Unterschied von 0,17 – und das, obwohl nur zwei zusätzliche Stimmen abgegeben wurden. Bei der FAIRPLAY-SCOUTAKTION lagen die erstplatzierten Spiele in den vergangenen Jahren selten mehr als 0,2 Punkte auseinander. Solche Verschiebungen sind also keineswegs trivial und können die „Treppchenplätze“ der Scoutaktion leicht beeinflussen.
Das arithmetische Mittel wird erst bei vielen Bewertungen robust, weil dann einzelne Ausreißer weniger Gewicht besitzen. Wer daraus trotzdem starke Aussagen ableitet, zum Beispiel in einem Podcast, muss sich dieser Sensitivität bewusst sein. Dies gilt besonders, wenn formuliert wird, ein Spiel habe „gewonnen“ oder es handele sich um „die beliebtesten Titel der SPIEL“. Zumal den Bewertungen bei BGG und SCOUTAKTION selten ein Vergleich zu Grund liegen dürfte.
Hinzu kommt: Das arithmetische Mittel sagt nichts über die Verteilung der Werte aus. Zwei völlig unterschiedliche Bewertungsmuster können dasselbe arithmetische Mittel erzeugen.
Beispiel 1 (starke Polarisierung):
{1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5}
Beispiel 2 (homogene Mittelmäßigkeit):
{2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3}
Beide ergeben 2,75 – aber die Bewertungen sind grundverschieden.
Lösung: Streumaße
Die hier skizzierten Probleme sind natürlich sehr bekannt und Grundlagen der Statistikausbildung, oft sogar schon im Rahmen der Schulbildung. Und auch die Lösung kennen viele daher: Neben den arithmetischen Mitteln sollte mindestens ein Maß über die Verteilung mit angegeben werden („Streumaß“), idealerweise die Standardabweichung. Diese basiert auf der Varianz, also der quadratischen Abweichung der einzelnen Werte vom Durchschnitt. Die Standardabweichung beschreibt damit so etwas wie die durchschnittliche Abweichung einer Bewertung vom Mittelwert. Eine kleine Standardabweichung bedeutet, dass sich die Bewertenden weitgehend einig sind. Im polarisierten Beispiel ergibt sich sd = 1,94; im homogenen Beispiel sd = 0,04. Dieser Zusatzwert liefert erhebliche weitere Informationen, die sich auch visuell leicht darstellen ließen.
Begreife ich die Bewertungen nun nicht nur als Bewertungen einer kleinen Gruppe, sondern gehe davon aus, dass die bewertenden Personen Teil der Gesamtheit der Spieler*innenschaft sind, dann ließen sich mittels Inferenzstatistik auch Vertrauensintervalle berechnen. Diese geben an, in welchem Wertebereich der wahre Wert der Grundgesamtheit mit hoher Wahrscheinlichkeit wirklich liegt. An dieser Stelle zeigt sich dann spätestens (ich habe dies testweise berechnet), dass der Statistik bei der SCOUTAKTION – und gleichermaßen den BGG-Bewertungen – keineswegs zu vertrauen ist. Die Unterschiede sind schlicht zu klein, um belastbare Aussagen zu erlauben.
Mein Fazit
Welche Lehren ziehe ich daraus? Für mich sind sowohl BGG-Bewertungen junger Spiele als auch die SCOUTAKTION derzeit interessante, aber letztlich unverbindliche Spielereien ohne statistische Aussagekraft. Wobei ich der Scoutaktion zu Gute halten möchte, dass ja auch schon der Name keine differenzierte Bewertung verspricht. Es geht um ein Auskundschaften. Das Problem ist mehr, was hinterher (von anderen) hineininterpretiert wird. Niemand sollte sich davon leiten lassen oder Spiele allein aufgrund guter Frühwerte zum Angucken priorisieren. Und ich möchte meine Kolleg*innen aus dem Content Creator*innen Bereich ausdrücklich ermuntern, dies transparent zu kommunizieren.
Vielleicht gelingt es ja, mehr Menschen zur Teilnahme an der Scoutaktion oder zum Bewerten auf BGG zu motivieren. Denn je größer die Datenbasis, desto zuverlässiger die Ergebnisse. Zudem würde ich mir wünschen, dass bei der Veröffentlichung von Massenbewertungen diese Problematik auch von den Herausgeber*innen beschrieben wird. Bei Befragungsdaten ist es längst Standard, über die zugrunde liegende Stichprobe und deren Verteilung zu berichten. Die Angabe der jeweiligen Standardabweichungen wäre aber aus meiner Sicht das absolute Minimum.
Transparenzhinweis
Für stilistische Überarbeitungsschritte sowie das Lektorat kam nach Erstellung der Rohfassung KI-Tools zum Einsatz. Der Text, seine Argumentation und alle Inhalte wurden eigenständig verfasst.