S1-205 – Der Dunning-Kruger Effekt

Was die berühmte Erkenntnis tatsächlich aussagt, warum vieles davon eine statistische Täuschung sein könnte und was davon Bestand hat

Im Jahr 1995 überfiel ein mittelgroßer Mann namens McArthur Wheeler mitten am Tag zwei Banken in Pittsburgh, ohne sich zu verkleiden und offenbar ohne sich darum zu kümmern, dass die Überwachungskameras sein Gesicht aufzeichnen würden. Als die Polizei ihn am Abend festnahm und ihm das Überwachungsmaterial zeigte, starrte er es verwirrt an. „Aber ich hatte doch den Saft drauf“, sagte er. Wheeler hatte gehört – und offenbar wirklich geglaubt –, dass man durch das Einreiben von Zitronensaft ins Gesicht für Kameras unsichtbar werde, da Zitronensaft als unsichtbare Tinte verwendet wird; er hatte die Idee getestet, indem er ein Polaroidfoto von sich selbst gemacht hatte, das nicht belichtet worden war. Er war zu dem Schluss gekommen, dass sein Gesicht daher nicht zu erkennen sei, anstatt anzunehmen, dass seine Kamera defekt war.

Die Geschichte gelangte zu David Dunning, einem Psychologen an der Cornell University, der sie weniger lustig und interessanter fand als seine Kollegen. Das Rätsel bestand nicht darin, dass Wheeler eine falsche Überzeugung hatte. Menschen haben regelmäßig falsche Überzeugungen und revidieren diese in der Regel, wenn sie mit gegenteiligen Beweisen konfrontiert werden. Das Rätsel war die Art von Wheelers Selbstvertrauen: das völlige Fehlen jeglicher Unsicherheit, jeglichen Gefühls, dass der Plan nicht funktionieren könnte, jeglichen Bewusstseins, dass es etwas gab, das er nicht verstand. Er hatte sich nicht nur geirrt. Er hatte sich auf eine Weise geirrt, die ihn unfähig machte, zu erkennen, dass er sich irrte, denn genau das Wissen, das den Fehler aufgedeckt hätte, fehlte ihm.

Dunning entwarf zusammen mit seinem Doktoranden Justin Kruger eine Reihe von Experimenten, um zu testen, ob dieses Muster (das Zusammentreffen von Inkompetenz und Überheblichkeit) systematisch und nicht nur anekdotisch war. Ihre 1999 im Journal of Personality and Social Psychology veröffentlichte Arbeit berichtete über Ergebnisse, die zu den meistzitierten in der Sozialpsychologie gehören.¹ Die Erkenntnis schien elegant in ihrer Struktur und zugleich beunruhigend in ihren Implikationen. Doch es gibt ein Problem mit dieser berühmten Geschichte, und es lohnt sich, dieses Problem im Detail zu verstehen, da es eine kleine Meisterklasse darüber ist, wie Statistik den Anschein von Psychologie erzeugen kann.

Was der Effekt behauptete

In ihrer ursprünglichen Studie testeten Dunning und Kruger die Teilnehmer in drei Bereichen: logisches Denken, englische Grammatik und die Fähigkeit, zu erkennen, was lustig ist. In jedem Bereich maßen sie die tatsächliche Leistung und baten die Teilnehmer anschließend, ihre eigene Leistung im Vergleich zu anderen einzuschätzen. Die wichtigste Erkenntnis bestand aus zwei Teilen. Am unteren Ende überschätzten sich die Personen mit den schlechtesten Ergebnissen dramatisch: Diejenigen im untersten Viertel schätzten typischerweise, dass sie etwa 60 Prozent ihrer Mitstreiter geschlagen hätten. Am oberen Ende unterschätzten die besten Teilnehmer ihre relative Position leicht und schätzten sich auf etwa 70 Prozent ein, obwohl ihre tatsächliche Leistung sie höher einordnete.

Die angebotene Interpretation lautete „doppelte Belastung“: Die Fähigkeiten, die man benötigt, um bei etwas gut abzuschneiden, sind oft dieselben, die man braucht, um zu beurteilen, wie gut man abgeschnitten hat. Daher sind die am wenigsten Kompetenten doppelt benachteiligt (sie sind schlecht in der Aufgabe und wissen es auch nicht), während die Kompetentesten, die mit dem Stoff vertraut sind, davon ausgehen, dass andere es genauso leicht finden wie sie selbst, und daher ihren relativen Vorsprung unterschätzen.

Es ist eine faszinierende Geschichte, die sich weit über die ursprüngliche bescheidene Behauptung hinaus verbreitet hat. Die virale Version („die Unkompetenten sind selbstbewusst verblendet, die Experten sind bescheiden“) ist diejenige, die die meisten Menschen im Kopf haben. Diese Version ist weitgehend falsch, und die Gründe dafür sind es wert, verstanden zu werden, da sie etwas Wissenswertes über die Beziehung zwischen Daten und Interpretation beleuchten.

Das erste Problem: Regression zum Mittelwert

Betrachten wir ein Gedankenexperiment, das die Psychologie völlig außer Acht lässt. Nehmen wir an, die Selbsteinschätzung hätte überhaupt keinen Bezug zu den tatsächlichen Fähigkeiten: Jeder würde seine eigene Platzierung mehr oder weniger zufällig schätzen, wobei sich die Schätzungen locker um den Mittelwert gruppieren. Sortieren wir nun die Personen nach ihren tatsächlichen Testergebnissen und betrachten wir die durchschnittliche Schätzung jeder Gruppe.

Die Personen, die tatsächlich ganz unten landeten, schätzten mehr oder weniger zufällig, was bedeutet, dass ihre Schätzungen im Durchschnitt ungefähr in der Mitte liegen, weit über ihrem tatsächlichen Ergebnis. Sie scheinen sich massiv zu überschätzen. Die Personen, die tatsächlich ganz oben landeten, schätzten im Durchschnitt ebenfalls in der Mitte, die nun weit unter ihrem tatsächlichen Ergebnis liegt. Sie scheinen sich zu unterschätzen. Beide Hälften des Dunning-Kruger-Musters haben sich gerade aus Daten ergeben, die keinerlei Psychologie enthalten.

Dies ist die Regression zum Mittelwert. Die Extreme können sich nur in Richtung der Mitte irren, weil sie nirgendwo anders hin können: Wenn man wirklich ganz unten steht, kann die Schätzung nur nach oben hin falsch sein; wenn man ganz oben steht, kann sie nur nach unten hin falsch sein. Jede ungenaue, unvollkommene Selbsteinschätzung führt daher automatisch zu einer Überschätzung am unteren Ende und einer Unterschätzung am oberen Ende, unabhängig davon, was im Kopf des Einzelnen vor sich geht.

Das zweite Problem: Autokorrelation

Die schärfere Kritik, die von Edward Nuhfer und Kollegen in den Jahren 2016 und 2017 am ausführlichsten dargelegt wurde, betrifft die Art und Weise, wie das berühmte Diagramm erstellt wird. Das Dunning-Kruger-Diagramm stellt den Selbstbewertungsfehler auf der einen Achse der tatsächlichen Punktzahl auf der anderen gegenüber. Der Selbstbewertungsfehler wird jedoch als Schätzung minus der tatsächlichen Punktzahl berechnet. Diese Punktzahl ist daher in beiden Achsen enthalten: Der Wert auf der vertikalen Achse beinhaltet konstruktionsbedingt den Wert auf der horizontalen Achse.

Wenn eine Größe gegen etwas aufgetragen wird, das mathematisch Teil davon ist, entsteht automatisch eine Steigung, selbst bei rein zufälligen Zahlen. Kritiker haben genau dies demonstriert: Wenn man zufällig generierte Daten in das Dunning-Kruger-Verfahren einspeist, erscheint jedes Mal das charakteristische Diagramm. Ein Muster, das zuverlässig in zufälligem Rauschen auftaucht, kann für sich genommen kein Beweis für einen psychologischen Effekt sein. Es ist ein Beweis für die Arithmetik des Diagramms. Dies ist das Argument, das in dem Satz „Der Dunning-Kruger-Effekt ist Autokorrelation“ zusammengefasst ist.

Warum der Effekt am unteren Ende größer ist

Hier ergibt sich ein naheliegender Einwand, und es ist die Frage, die das gesamte Thema am besten verdeutlicht. Wäre der Mechanismus nur die Grenze (dass der untere Bereich nur nach oben und der obere nur nach unten abweichen kann), dann müsste der Effekt symmetrisch sein: gleiche und entgegengesetzte Verzerrungen an den beiden Enden. Warum also ist die Überschätzung am unteren Ende so viel größer und dramatischer als die Unterschätzung am oberen Ende? Warum ist der Effekt einseitig?

Die Grenze allein erklärt dies nicht. Etwas muss die Symmetrie aufheben, und der Hauptverursacher ist eine zweite, unabhängige und gut belegte Verzerrung: der „Besser-als-der-Durchschnitt“-Effekt, die starke Tendenz der meisten Menschen, sich bei den meisten wünschenswerten Eigenschaften etwas überdurchschnittlich einzustufen. Dies ist derselbe Effekt, der hinter der Erkenntnis steht, dass die große Mehrheit der Autofahrer sich selbst als überdurchschnittlich gute Fahrer einschätzt. ³ Entscheidend ist, dass diese Verzerrung nicht symmetrisch um den Mittelwert herum verläuft; es handelt sich um einen allgemeinen Aufwärtsschub bei der Selbsteinschätzung aller. Betrachten wir, was dieser Aufwärtsschub an jedem Ende bewirkt, wenn er zur Regression hinzukommt:

Am unteren Ende zieht die Regression die Einschätzungen der Niedrigpunktzahler nach oben in Richtung des Mittelwerts, und die „Besser-als-der-Durchschnitt“-Verzerrung drückt sie ebenfalls nach oben. Die beiden Effekte weisen in dieselbe Richtung und verstärken einander. Das Ergebnis ist eine starke Überschätzung.

Am oberen Ende zieht die Regression die Schätzungen der Teilnehmer mit hohen Punktzahlen nach unten in Richtung des Mittelwerts, doch die „Besser-als-der-Durchschnitt“-Verzerrung drückt sie nach oben. Die beiden Effekte weisen in entgegengesetzte Richtungen und heben sich teilweise auf. Das Ergebnis ist nur eine geringfügige scheinbare Unterschätzung.

Die Asymmetrie entsteht also nicht durch die Ober- und Untergrenze, die symmetrisch sind. Sie entsteht durch eine einheitliche Aufwärtsverzerrung, die den Regressionsfehler am unteren Ende verstärkt und ihn am oberen Ende ausgleicht. Die untere Gruppe wird von beiden Effekten in dieselbe Richtung getroffen; bei der oberen Gruppe wirken die beiden Effekte gegeneinander. Das allein reproduziert die einseitige Dunning-Kruger-Kurve, ohne dass es einer psychologischen Erklärung bedarf, die über die einzige, unbestrittene Tatsache hinausgeht, dass Menschen dazu neigen, sich selbst etwas höher einzuschätzen.

Schätzen sich Experten wirklich selbst unterschätzend ein?

Das ist die Frage, die die ganze Debatte konkret macht, und die Antwort lautet meist „nein“. Die scheinbare Bescheidenheit von Leistungsträgern ist der am einfachsten zu erklärende Teil des Effekts, und zwar aus einem einfachen Grund: Wenn man wirklich nahe an der Spitze ist, gibt es fast keinen Spielraum für eine Überschätzung. Niemand kann behaupten, im 130. Perzentil zu liegen. Jemand, der tatsächlich im 95. Perzentil ist und bescheiden „vielleicht im 80.“, schätzt, sieht so aus, als würde er sich selbst unterschätzen, doch dieser Anschein wird größtenteils durch die Grenze erzwungen, nicht durch besondere Selbsterkenntnis oder Bescheidenheit. Es gibt einfach weitaus mehr Spielraum, sich nach unten zu irren, wenn man bereits ganz oben steht.

Wenn Forscher die Daten mit Methoden analysieren, die darauf ausgelegt sind, die Regressions- und Grenzartefakte zu beseitigen (indem sie die Fähigkeit zweimal messen oder strengere nichtlineare Techniken anwenden), schrumpft der dramatische Effekt, dass „Experten sich selbst unterschätzen“, meist oder verschwindet ganz. Die starke Behauptung, dass Fachwissen als psychologische Tatsache zu einer systematischen Selbstunterschätzung führt, hält also nicht stand. Es handelt sich größtenteils um ein Artefakt, das dadurch entsteht, wo sich die Spitze auf der Skala befindet.

Was bleibt übrig

Wenn die dramatische Version größtenteils ein Artefakt ist, bleibt dann noch etwas Reales übrig? Wahrscheinlich ein schwächerer, sanfterer Effekt, obwohl selbst dies umstritten ist. Was bei sorgfältigeren Analysen tendenziell bestehen bleibt, ist keine Geschichte von selbstbewussten Narren und bescheidenen Experten, sondern etwas Bescheideneres: Die Genauigkeit der Selbsteinschätzung verbessert sich mit zunehmender Kompetenz. Leistungsstärkere Personen neigen dazu, ihre eigene Position genauer einzuschätzen (ihre Einschätzungen entsprechen eher der Realität), während die Einschätzungen leistungsschwächerer Personen ungenauer sind und weniger eng mit ihrer tatsächlichen Leistung zusammenhängen. Dies ist der eigentliche Kern von Dunning und Krugers Idee der „doppelten Belastung“: Die metakognitive Fähigkeit, die erforderlich ist, um die eigene Leistung in einem Bereich einzuschätzen, und die Fähigkeit, in diesem Bereich Leistung zu erbringen, scheinen tatsächlich gemeinsam zu wachsen, sodass Menschen, die in einem Bereich schwach sind, auch etwas schlechter darin sind, ihre Schwäche einzuschätzen.

Beachten Sie, wie viel bescheidener diese Behauptung im Vergleich zu der berühmten ist. „Leistungsschwache haben eine ungenauere Selbsteinschätzung“ ist real, plausibel und hält einer genauen Prüfung stand. „Die Inkompetenten täuschen sich selbst in ihrer Selbstsicherheit, während Experten bescheiden sind“ ist der Teil, der sich größtenteils als durch Regression zum Mittelwert, Autokorrelation und den „besser als der Durchschnitt“-Effekt hervorgerufen herausstellt.

Wie gesichert ist diese Erkenntnis?

Es ist umstritten, nicht abgeschlossen, und es lohnt sich, den Stand der Argumentation genau zu betrachten, anstatt einen Slogan („Die Inkompetenten wissen es nicht“) gegen einen anderen („Dunning-Kruger ist widerlegt“) auszutauschen.

Worüber im Wesentlichen Einigkeit herrscht: Das klassische Quartilsdiagramm ist durch Regression zum Mittelwert und durch Autokorrelation verfälscht, und die dramatische symmetrische Geschichte ist zu einem großen Teil ein statistisches Artefakt. Die Kritik an diesem Punkt (Krueger und Mueller 2002, Nuhfer und Kollegen 2016 und 2017, Gignac und Zajenkowski 2020) ist mathematisch fundiert und wird nicht ernsthaft bestritten.²

Was weiterhin umstritten ist: ob nach Beseitigung der Artefakte noch etwas Psychologisches übrig bleibt. Einige Analysten argumentieren, dass im Grunde nichts übrig bleibt: Das gesamte Muster reduziere sich auf Regression plus den „besser als der Durchschnitt“-Effekt. Andere argumentieren, dass ein realer, aber bescheidener Rest bestehen bleibt, dass Personen mit schlechter Leistung tatsächlich über eine weniger genaue Selbsteinschätzung verfügen, und eine Reihe von Studien, die strengere Methoden anwenden, berichten weiterhin von partiellen Effekten in einigen Bereichen. Eine Studie aus dem Jahr 2024 zur Kreativität hat die Situation treffend erfasst: Der Effekt trat bei der klassischen Quartilmethode auf, blieb jedoch bei strengeren Methoden aus. Das ist das Kennzeichen eines Ergebnisses, das größtenteils, aber vielleicht nicht vollständig, ein Artefakt ist.

Das ehrliche Urteil lautet also: Der Dunning-Kruger-Effekt, wie er allgemein verstanden und ursprünglich dargestellt wurde, ist erheblich umstritten und lässt sich weitgehend als statistisches Artefakt erklären; ein schwächeres, reales Phänomen (die Genauigkeit der Selbsteinschätzung steigt mit der Kompetenz) mag bestehen bleiben, aber es ist weit weniger dramatisch als die berühmt gewordene Version, und die Frage ist nicht geklärt.

Die Bergmetapher und warum sie nützlich bleibt

Es gibt ein Bild, das den von Dunning und Kruger vorgeschlagenen Mechanismus veranschaulicht, und es bleibt pädagogisch nützlich, auch wenn die quantitativen Behauptungen umstritten sind. Stellen Sie sich eine Bergkette vor, von unten betrachtet. Wenn man am Fuß steht, kann man die Ausläufer deutlich sehen und dahinter, scheinbar nah, das, was wie der Gipfel aussieht. Man hat kein Gefühl für die Ausdehnung dessen, was zwischen dem Fuß und dem Gipfel liegt, da man es von diesem Standpunkt aus nicht sehen kann. Die Schwierigkeit des Aufstiegs wird daher anhand des Sichtbaren eingeschätzt, was zu einer systematischen Unterschätzung führt.

Stellen Sie sich nun dieselbe Bergkette vor, von einer Position auf halber Höhe aus betrachtet. Plötzlich liegen die Ausläufer viel weiter unten als erwartet. Der Gipfel scheint viel weiter oben zu liegen. Das Gelände zwischen dieser Position und dem Gipfel ist besser sichtbar und schwieriger, als es vom Fuß des Berges aus erschien. Die Einschätzung der Gesamtanstrengung des Aufstiegs und der zurückgelegten Strecke hat sich drastisch geändert – nicht weil sich der Berg verändert hat, sondern weil der neue Standpunkt Zugang zu Informationen gewährt, die zuvor unsichtbar waren.

Dies ist eher eine geometrische als eine psychologische Beschreibung dessen, was Dunning und Kruger zu erfassen versuchten. Das übermäßige Selbstvertrauen des Anfängers, soweit es über statistische Artefakte hinausgeht, ist nicht in erster Linie ein Charakterfehler; es ist ein Fehler des Blickwinkels. Vom Fuß eines Wissensgebiets aus ist dessen Struktur unsichtbar. Die Unterteilungen, Teilgebiete, methodologischen Debatten, ungelösten Fragen und die historische Komplexität, die tatsächliche Fachkompetenz ausmachen, sind nicht sichtbar, weil der Blickwinkel sie nicht erfasst. Der Anfänger bildet sich eine Einschätzung des Schwierigkeitsgrades des Fachgebiets anhand dessen, was er sehen kann, nämlich des Einstiegsmaterials, das oberflächlich betrachtet einer Zusammenfassung des Ganzen ähnelt.⁴

Die Metapher übersteht die statistische Kritik, weil sie etwas Reales über die Phänomenologie des Lernens beschreibt, auch wenn die ursprünglichen quantitativen Behauptungen durch Artefakte überhöht waren. Unabhängig davon, ob das Dunning-Kruger-Diagramm das misst, was es zu messen vorgibt, ist die Erfahrung, zu entdecken, dass ein Fachgebiet weitaus komplexer ist, als es von außen erschien, jedem vertraut, der sich ernsthaft in ein Studiengebiet begeben hat. Der Berg war schon immer da. Was sich geändert hat, war die Fähigkeit, ihn wahrzunehmen.

Das Tal der Verzweiflung

Es gibt eine weitere Stufe in dieser Entwicklung, die in der ursprünglichen Dunning-Kruger-Studie nicht vollständig hervorgehoben wurde, die aber durch nachfolgende Forschungen und die breitere Lernliteratur deutlich gemacht wurde. Wenn sich das Wissen in einem Fachgebiet vertieft (wenn der Anfänger beginnt, mehr vom Berg zu sehen), sinkt das Selbstvertrauen typischerweise, bevor es wieder steigt. Der Anfänger, der selbstbewusst behauptet, Wirtschaft sei einfach, eine rechtliche Frage habe eine offensichtliche Antwort oder ein Programmierproblem sei unkompliziert, durchläuft typischerweise eine Phase unangenehmer Unsicherheit, wenn die tatsächliche Komplexität des Fachgebiets sichtbar wird. Die Komplexität war schon immer da. Was sich geändert hat, ist die Fähigkeit des Lernenden, sie wahrzunehmen.

Dies wird manchmal als „Tal der Verzweiflung“ bezeichnet und ist eher ein vorhersehbares Merkmal der Lernkurve als ein Zeichen dafür, dass das Lernen schiefgelaufen ist. Es ist der Moment, in dem die anfängliche Karte des Anfängers gerade so genau geworden ist, dass sie das bisher fehlende Gelände offenbart, in dem das vorläufige Modell, das den Bereich überschaubar erscheinen ließ, einer umfassenderen Sichtweise gewichen ist, die ihn überwältigend erscheinen lässt. Der Experte, der das Tal durchquert hat und mit echter Kompetenz daraus hervorgegangen ist, trägt typischerweise einen Rest dieser Begegnung in sich: eine kalibrierte Unsicherheit, die dem Anfänger in seiner anfänglichen Zuversicht fehlt – nicht weil der Experte weniger weiß, sondern weil er mehr darüber weiß, was es zu wissen gibt.

Artikel 212 dieser Reihe beschreibt mehrere praktische Werkzeuge, um ein genaueres Gespür für das Gelände oberhalb der eigenen aktuellen Position zu erlangen und den eigenen Blickwinkel zu verbessern, ohne den Aufstieg selbst bewältigen zu müssen. Was der vorliegende Artikel jedoch beiträgt, ist die vorangehende Beobachtung: Unabhängig davon, ob die quantitativen Behauptungen des Dunning-Kruger-Effekts einer statistischen Überprüfung standhalten, ist die Phänomenologie der Begegnung mit Komplexität (das Beobachten, wie das eigene Selbstvertrauen sinkt, während das Wissen wächst) real und für jeden erkennbar, der ernsthaft nach Fachkompetenz in einem beliebigen Bereich gestrebt hat.

Die Ironie, die es wert ist, beachtet zu werden

Es gibt einen letzten Punkt, der mehr als nur eine Kuriosität ist. Der Grund, warum der Dunning-Kruger-Effekt fast zwei Jahrzehnte lang Menschen täuschte, darunter auch fähige Forscher, liegt genau darin, dass ein Stück statistischer Struktur (Regression zum Mittelwert, eine gegen sich selbst aufgetragene Variable) etwas hervorbrachte, das wie eine tiefgreifende Tatsache über die menschliche Psychologie aussah. Die Menschen sahen eine Verteilung und interpretierten sie als Persönlichkeit. Der Effekt wurde aufgrund eines Artefakts zu einem Begriff.

Das ist eine schärfere Lektion als die, die der Effekt normalerweise lehren soll. Der populäre Gebrauch von Dunning-Kruger dient dazu, auf das übermäßige Selbstvertrauen anderer hinzuweisen. Die bessere Lektion handelt davon, wie leicht jeder, auch Experten, die Form seiner Daten mit einer Erkenntnis über Menschen verwechseln kann – eine Demut, die die selbstbewussten Verweiser auf den Effekt selten auf sich selbst anwenden.

Der bewusste Blick, angewandt auf die Kalibrierung

Die diagnostische Frage dieser Reihe (was müsste wahr sein, damit dieses Modell falsch ist?) hat hier eine spezifische und wichtige Anwendung. Wenn selbst erfahrene Wissenschaftler durch statistische Artefakte in die Irre geführt werden können und glauben, sie hätten ein psychologisches Phänomen entdeckt, dann sind auch wir anderen nicht immun dagegen. Die Frage ist nicht, ob wir anfällig für Fehlkalibrierung sind (die Beweise deuten darauf hin, dass wir es alle auf verschiedene Weise sind), sondern ob wir Praktiken entwickeln können, die die Verzerrung verringern.

Die erste Praxis ist der in Artikel 212 beschriebene Feynman-Test: Versuchen Sie, das Thema ohne Verwendung des Fachvokabulars zu erklären, und zwar in einer Weise, der ein neugieriger und intelligenter Laie folgen kann. Die Lücken in der Erklärung offenbaren die Lücken im Verständnis, und zwar auf eine Weise, die für die Person, die den Test durchführt, zumindest teilweise nachvollziehbar ist. Wenn die Erklärung bei näherer Befragung in Fachjargon versinkt (wenn das Fachvokabular die Arbeit übernimmt, die eigentlich echtes Verständnis leisten sollte), dann wird die Lücke sichtbar, auch wenn es unangenehm ist, dies einzugestehen.

Der zweite besteht darin, das Tal der Verzweiflung als Orientierungshilfe und nicht als motivierendes Hindernis zu betrachten. Wenn eine zunehmende Auseinandersetzung mit einem Fachgebiet eher zunehmende Unsicherheit als wachsendes Selbstvertrauen hervorruft, ist diese Unsicherheit wahrscheinlich aufschlussreich. Es ist der Blickwinkel, der sich auf dem Berg nach oben verschiebt, und der dadurch entstehende Vertrauensverlust ist ein Beweis für echten Fortschritt und nicht dafür, dass es sich nicht lohnt, sich mit dem Fachgebiet zu beschäftigen. Der Anfänger, der erwartet, sich mit zunehmendem Wissen sicherer zu fühlen, wird von diesem Tal überrascht und entmutigt sein. Der Lernende, der das Tal erwartet (der weiß, dass die Begegnung mit echter Komplexität das erste Anzeichen dafür ist, dass die Karte genauer wird), wird das Unbehagen als Information aufnehmen.

Der Dunning-Kruger-Effekt behauptete in seiner ursprünglichen Formulierung, dass das Modell der eigenen Kompetenz auf vorhersehbare Weise systematisch verzerrt sei. Die statistische Kritik zeigt, dass ein Großteil der Belege für diese Behauptung selbst eine Verzerrung war, ein Fall, in dem die Modelle der Forscher für ihre Daten systematisch falsch waren. Die Ironie ist perfekt, und es ist genau die Art von Ironie, auf die diese Serie aufmerksam machen will: Die Studie über Selbstüberschätzung war selbst selbstüberschätzt. Die Karte der Fehlkalibrierung war selbst fehlkalibriert.

Was diese Rekursion überlebt, ist nicht nichts. Die schwächere Behauptung (dass sich die Genauigkeit der Selbsteinschätzung mit zunehmender Kompetenz verbessert, dass Anfänger in ihren Selbsteinschätzungen ungenauer sind als Experten) ist wahrscheinlich wahr. Die Phänomenologie des „Tals der Verzweiflung“ ist real. Die Bergmetapher erfasst etwas Wahres über die Erfahrung des Lernens. Und die Lehre über statistische Artefakte ist an sich wertvoll: Wenn sich eine so berühmte, so oft replizierte und intuitiv befriedigende Erkenntnis als weitgehend ein Artefakt der Art und Weise herausstellen kann, wie das Diagramm gezeichnet wurde, dann sollte die Messlatte für das Vertrauen in jede psychologische Behauptung höher liegen, als die meisten von uns sie ansetzen.

Der „Conscious Look“, angewandt auf die Selbsteinschätzung, ist daher die Praxis, das eigene Selbstvertrauen als Daten und nicht als „Grundwahrheit“ zu behandeln: zu fragen, welche Beweise ihm zugrunde liegen, welche Bewertungsfähigkeit es hervorgebracht hat und was erforderlich wäre, um echte Kompetenz von dem Anschein von Kompetenz zu unterscheiden, den die Regression zum Mittelwert, der „Besser-als-der-Durchschnitt“-Effekt und die Grenzen des eigenen Blickwinkels so leicht erzeugen können.

Weiterführende Literatur

David Dunnings eigene populärwissenschaftliche Darstellung des Effekts, die 2014 unter dem Titel „We Are All Confident Idiots“ im Magazin Pacific Standard veröffentlicht wurde, ist die am besten lesbare Einführung in die ursprüngliche Forschung und ihre beabsichtigten Implikationen. Dunning achtet sorgfältig darauf, die Schlussfolgerung auf sich selbst und den Leser auszuweiten (einschließlich der Beobachtung, dass das Bewusstsein für den Effekt keinen verlässlichen Schutz davor bietet), und zwar auf eine Weise, die sowohl beunruhigend als auch epistemologisch ehrlich ist. Sie sollte zusammen mit den Kritiken gelesen werden.

Für die statistische Kritik ist die klarste Darstellung die von Gilles Gignac und Marcin Zajenkowski aus dem Jahr 2020 mit dem Titel „The Dunning-Kruger Effect Is (Mostly) a Statistical Artefact“, veröffentlicht in Intelligence, die die Argumente zur Autokorrelation und Regression präzise darlegt. Die Nuhfer-Artikel aus den Jahren 2016 und 2017 in Numeracy zeigen, dass sich das klassische Diagramm aus Zufallsdaten reproduzieren lässt. Der Artikel von Joachim Krueger und Ross Mueller aus dem Jahr 2002 im Journal of Personality and Social Psychology war eine frühe Warnung, dass der „besser als der Durchschnitt“-Effekt und statistische Regression einen Großteil des Musters erklären könnten.

Daniel Kahnemans Thinking, Fast and Slow (2011) liefert den breiteren kognitiven Rahmen, in dem Selbstbewertung stattfindet: insbesondere die Beziehung zwischen dem auf Flüssigkeit basierenden Verständnisgefühl von System 1 und den langsameren, aufwändigeren Bewertungsprozessen von System 2.

Philip Tetlocks „Superforecasting: The Art and Science of Prediction“ (2015), verfasst zusammen mit Dan Gardner, ist die überzeugendste verfügbare Darstellung dessen, wie eine kalibrierte Selbsteinschätzung in der Praxis tatsächlich aussieht: wie erfahrene Prognostiker lernen, ihr Vertrauen proportional zu ihren Belegen zu halten, ihre eigene Genauigkeit über die Zeit hinweg zu verfolgen und ihre Schätzungen als Reaktion auf neue Informationen zu revidieren.

Anmerkungen

¹ Die Geschichte von McArthur Wheeler wird in Kruger, J., und Dunning, D. (1999) beschrieben. Unskilled and unaware of it: How difficulties in recognizing one’s own incompetence lead to inflated self-assessments. Journal of Personality and Social Psychology, 77(6), 1121–1134. Dunning hat Wheelers Fall als ursprüngliche Inspiration für das Forschungsprogramm beschrieben. Die konkrete Behauptung, Zitronensaft sei unsichtbare Tinte, ist zutreffend: Zitronensaft fungiert tatsächlich als wärmeempfindliche unsichtbare Tinte, was Wheeler offenbar zu einer dramatisch falschen Schlussfolgerung über seine Eigenschaften als Gesichtsabdeckung vor Kameras veranlasste.

² Die Argumente bezüglich statistischer Artefakte (Regression zum Mittelwert, Autokorrelation, überdurchschnittliche Stapelung) sind gut belegt und technisch unumstritten; was wirklich umstritten bleibt, ist, ob ein echter psychologischer Restbestand besteht. Die wichtigsten kritischen Arbeiten sind: Krueger, J., und Mueller, R. A. (2002). Unskilled, unaware, or both? The better-than-average heuristic and statistical regression predict errors in estimates of own performance. Journal of Personality and Social Psychology, 82(2), 180–188; Nuhfer, E., et al. (2016, 2017), zwei Artikel in Numeracy, in denen argumentiert wird, dass der Effekt anhand von Zufallsdaten reproduziert werden kann; Gignac, G. E., und Zajenkowski, M. (2020). Der Dunning-Kruger-Effekt ist (größtenteils) ein statistisches Artefakt: Validierte Ansätze zur Überprüfung der Hypothese anhand von Daten zu individuellen Unterschieden. Intelligence, 80. Beachten Sie auch den späteren Austausch (Hiller 2023; Gignac und Zajenkowski 2023), der die Debatte am Leben erhält.

³ Der „Besser-als-der-Durchschnitt“-Effekt ist umfassend dokumentiert. Der klassische Nachweis stammt von Svenson, O. (1981). Sind wir alle risikoscheuer und geschickter als unsere Mitfahrer? Acta Psychologica, 47, 143–148. Zu den Mechanismen (Selbstoptimierung sowie egozentrische/fokale Erklärungsansätze) siehe Alicke, M. D., und Govorun, O. (2005). The better-than-average effect. In The Self in Social Judgment; sowie Kruger, J. (1999). Lake Wobegon be gone! Journal of Personality and Social Psychology, 77, zur Umkehrung von „leicht“ und „schwer“.

⁴ Der Zusammenhang zwischen teilweiser Vertrautheit und übertriebenem Selbstvertrauen steht im Zusammenhang mit dem, was der Psychologe Matthew Fisher und seine Kollegen als „Illusion der Erklärtiefe“ bezeichnet haben: die Erkenntnis, dass Menschen, die vereinfachten Zusammenfassungen komplexer Themen ausgesetzt waren, mehr Vertrauen in ihr Verständnis haben als Menschen, die überhaupt keine Informationen erhalten haben, obwohl sie nicht mehr tatsächliches Verständnis besitzen. Dies knüpft an die Behandlung der Wissensillusion in Artikel 202 dieser Reihe an.