102 – Was ist ein Model – The Conscious Look

Erklärungskraft, Vorhersage und die Kunst, die Grenzen zu kennen

Es gibt einen Plan der Londoner U-Bahn, der mehr als eine Milliarde Mal reproduziert wurde. Er hängt in Zugwaggons und Fahrkartenschaltern, erscheint in Reiseführern und auf Handybildschirmen und ist weltweit mehr Menschen bekannt als fast jedes andere grafische Design. Nach allen gängigen kartografischen Maßstäben ist er zudem falsch. Die Entfernungen zwischen den Stationen stehen in keinem Verhältnis zu den tatsächlichen Entfernungen unter der Erde. Die Kurven und Biegungen der Tunnel wurden zu sauberen horizontalen, vertikalen und diagonalen Linien vereinfacht. Die Themse, die die Züge an mehreren Stellen überqueren, ist auf einfache dekorative Schnörkel reduziert. Und doch funktioniert die Karte. Für den Zweck, für den sie entworfen wurde – nämlich Fahrgästen zu helfen, von einem Bahnhof zum anderen zu gelangen –, ist sie wohl eine der erfolgreichsten Karten, die je erstellt wurden. Ihre Präzision ist eine direkte Folge ihrer Unvollständigkeit.

Diese Beobachtung ist nicht bloß eine Kuriosität des Grafikdesigns. Sie ist eine Beschreibung dessen, wie alle nützlichen Darstellungen der Welt funktionieren. Was wir im genauen Sinne dieser Serie als Modell bezeichnen, ist jede interne oder externe Darstellung, die die Merkmale eines Teils der Welt ordnet, Erwartungen darüber weckt, was als Nächstes in diesem Teil geschehen wird, und das Handeln entsprechend lenkt. Die U-Bahn-Karte ist ein Modell. Newtons Bewegungsgleichungen sind ein Modell. Unser Verständnis der Persönlichkeit eines Kollegen ist ein Modell. Die Geschichte, die wir uns selbst darüber erzählen, wer wir sind und was wir wertschätzen, ist ein Modell. Was ein nützliches Modell von einem nutzlosen unterscheidet, ist nicht seine Übereinstimmung mit jedem Merkmal des Gebiets, das es darstellt; kein Modell erreicht das, und diejenigen, die es versuchen, sind in der Regel am wenigsten nützlich. Was ein nützliches Modell auszeichnet, ist etwas Spezifischeres: die Kombination aus Erklärungskraft, Vorhersagekraft, Verankerung in tieferen Prinzipien und (das am meisten vernachlässigte der vier) einer ehrlichen Darstellung dessen, wo das Modell nicht mehr funktioniert.

Dieser Artikel untersucht nacheinander jede dieser vier Eigenschaften. Zusammen bilden sie einen Maßstab, an dem jeder Wissensanspruch gemessen werden kann. Ob wir nun eine wissenschaftliche Theorie, ein politisches Argument, eine persönliche Überzeugung oder unsere eigenen, am festesten verankerten Überzeugungen bewerten – es gelten immer dieselben vier Fragen: Erklärt dieses Modell die relevanten Beobachtungen? Stellt es Vorhersagen auf, die falsch sein könnten? Beruht es auf etwas Grundlegenderem? Und kennt es seine eigenen Grenzen?

Die erste Eigenschaft: Erklärungskraft

Ein Modell verfügt über Erklärungskraft, wenn es eine Reihe von Beobachtungen, die zuvor unzusammenhängend oder willkürlich erschienen, zu einer schlüssigen Darstellung zusammenfasst, die sie weniger überraschend macht. Vor Newton waren die Bewegung einer Kanonenkugel, der Fall eines Apfels und die Umlaufbahn des Mondes drei getrennte Phänomene, die jeweils eine eigene Beschreibung erforderten. Nach Newton waren sie drei Beispiele für eine einzige zugrunde liegende Beziehung zwischen Masse, Entfernung und Kraft. Die Beobachtungen änderten sich nicht. Was sich änderte, war der Rahmen, in den sie eingeordnet wurden, und mit dieser Änderung kam das befriedigende Gefühl des Verstehens, das echten erklärenden Fortschritt kennzeichnet.

Dieses Gefühl des Verstehens ist es wert, sorgfältig untersucht zu werden, denn es kann uns ebenso leicht in die Irre führen, wie es uns leiten kann. Eine Verschwörungstheorie, ein Aberglaube und ein gut belegtes wissenschaftliches Gesetz erzeugen alle dasselbe subjektive Gefühl der erklärenden Zufriedenheit: das Gefühl, dass zuvor rätselhafte Beobachtungen nun Sinn ergeben, dass die Teile zusammenpassen, dass wir verstehen, warum die Dinge so geschahen, wie sie geschahen. Was die Verschwörungstheorie vom wissenschaftlichen Gesetz unterscheidet, ist nicht das Gefühl des Verstehens, sondern die Qualität der Erklärungsstruktur: ob sie die Beobachtungen, die sie zu erklären vorgibt, tatsächlich ordnet, ob sie dies effizienter tut als konkurrierende Erklärungen und ob sie ebenso zuverlässig funktionieren würde, wenn die Beobachtungen anders gewesen wären.

Dieses letzte Kriterium ist einer der nützlichsten verfügbaren Tests. Ein Modell mit echter Erklärungskraft würde nicht einfach beliebige Beobachtungen gleichermaßen gut erklären; es würde diese bestimmte Reihe von Beobachtungen erklären, und für eine andere Reihe wäre ein anderes Modell erforderlich. Ein Modell, das alles mit gleicher Leichtigkeit erklären kann, unabhängig davon, was die Daten zeigen, erklärt nichts in einem sinnvollen Sinne. Das Horoskop, das die Persönlichkeit des Klienten offenbart, nachdem ihm mitgeteilt wurde, welches Sonnenzeichen er hat, beweist keine Erklärungskraft; es beweist die menschliche Fähigkeit, in ausreichend vagen Beschreibungen bestätigende Muster zu finden. Echte Erklärungskraft ist selektiv: Sie lässt einige Beobachtungen erwartbar und andere überraschend erscheinen, und die Beobachtungen, die tatsächlich eingetreten sind, sind die erwarteten.¹

Die Evolutionstheorie durch natürliche Selektion veranschaulicht eine wichtige Asymmetrie, die jede ehrliche Darstellung von Erklärungskraft anerkennen muss: Ein Modell kann Erklärungskraft auf höchstem Niveau besitzen, während seine Vorhersagekraft in ihrem Umfang von Natur aus begrenzt bleibt. Darwins Theorie ordnet eine außergewöhnliche Bandbreite an Beobachtungen (den Fossilienbestand, die geografische Verbreitung von Arten, die molekularen Ähnlichkeiten zwischen Organismen, das Vorhandensein von Rudimentstrukturen, die Entstehung von Antibiotikaresistenzen bei Bakterien) in einen einzigen kohärenten Rahmen aus Variation, Selektion und Vererbung ein. Ihre Erklärungsreichweite ist wahrhaft außergewöhnlich. Doch was die Theorie konkret vorhersagt, ist durch die Natur des von ihr beschriebenen Mechanismus begrenzt. Die Evolution sagt voraus, dass Anpassungsdruck zu Anpassungen führen wird. Sie kann nicht im Voraus vorhersagen, welche spezifischen Anpassungen entstehen werden, da die verfügbare genetische Variation, die genaue Art des Selektionsdrucks und die Abfolge kontingenter historischer Ereignisse alle im Voraus nicht bekannt sind. Wir können mit Sicherheit vorhersagen, dass eine einem Antibiotikum ausgesetzte Bakterienpopulation schließlich Resistenzen entwickeln wird; wir können nicht vorhersagen, welche spezifischen Mutationen dies bewirken werden. Wir können vorhersagen, dass sich eine auf einer Insel isolierte Population von ihren Verwandten auf dem Festland unterscheiden wird; wir können jedoch nicht vorhersagen, ob sich diese Unterscheidung in der Körpergröße, der Färbung, der Schnabelmorphologie oder einer Kombination aus allen dreien äußern wird. Die Theorie wird durch diese Einschränkung nicht geschwächt; sie wird dadurch vielmehr verdeutlicht. Erklärungskraft und Vorhersagekraft sind unterschiedliche Eigenschaften, und ein Modell kann die eine in Hülle und Fülle besitzen, während die andere nur teilweise oder innerhalb eines begrenzten Bereichs vorhanden ist.²

Die zweite Eigenschaft: Vorhersagekraft

Erklärungskraft blickt zurück auf bereits gemachte Beobachtungen. Vorhersagekraft blickt vorwärts auf noch nicht gemachte Beobachtungen. Ein Modell verfügt über Vorhersagekraft, wenn es im Voraus angibt, was unter noch nicht untersuchten Bedingungen zu beobachten sein sollte, und wann diese Vorhersagen konkret genug sind, um falsch sein zu können.

Die Bedeutung dieses letzten Satzteils kann gar nicht hoch genug eingeschätzt werden. Eine Vorhersage, die mit jedem möglichen Ergebnis vereinbar ist, ist überhaupt keine Vorhersage. Es ist eine Beschreibung, die in die grammatikalische Form einer Vorhersage gekleidet ist. Das Wirtschaftsmodell, das je nach „Bedingungen“ entweder Wachstum oder Schrumpfung vorhersagt, die medizinische Behandlung, deren Befürworter behaupten, sie wirke, außer wenn sie es nicht tut, die politische Theorie, die jedes Wahlergebnis als Bestätigung ihrer Prinzipien erklärt – keines davon macht echte Vorhersagen, weil keines davon den Kopf so weit herausstreckt, wie es eine echte Vorhersage erfordert.

Was eine Vorhersage echt macht, ist ihre Falsifizierbarkeit: die Existenz eines klar spezifizierbaren Ergebnisses, das, falls es eintreten würde, einen Beweis gegen das Modell darstellen würde.³ Man denke an den Physiker, der die Lichtablenkung um die Sonne auf einen bestimmten Winkelwert vorhersagt und dann eine Sonnenfinsternis beobachtet, um zu überprüfen, ob die gemessene Ablenkung damit übereinstimmt. Das ist eine Vorhersage im relevanten Sinne. Die Beobachtung hätte anders ausfallen können. Dass dies nicht der Fall war, ist aufschlussreich. Sie zählt – in einer Weise, wie nicht falsifizierbare Behauptungen nicht zählen können – als Beweis zugunsten des Modells.

Daraus ergibt sich eine praktische Implikation, die weit über die Physik hinausgeht. Wenn wir auf ein Modell stoßen (der Wirtschaft, eines sozialen Phänomens, des wahrscheinlichen Verhaltens einer Person), das scheinbar alles vorhersagt, lohnt es sich, konkret zu fragen, was es vorhersagen würde, wenn wir eine bestimmte Variable ändern würden. Wenn die Antwort immer mit dem vereinbar ist, was wir anschließend beobachten, liefert das Modell keine echten Vorhersagen; es liefert nachträgliche Erklärungen, die sich als Vorhersagen tarnen. Das rückblickende Gefühl, dass Ereignisse unvermeidlich waren, dass das Modell sie die ganze Zeit vorausgesehen hat, ist eines der zuverlässigsten Anzeichen dafür, dass es sich um eine Erklärung und nicht um eine Vorhersage handelt.⁴

Die dritte Eigenschaft: Verankerung in tieferen Prinzipien

Das dritte Kriterium unterscheidet Modelle, die für sich allein stehen, von Modellen, die in eine größere Erklärungsstruktur eingebettet sind. Ein Modell ist in tieferen Prinzipien verankert, wenn seine Aussagen nicht bloß empirische Regelmäßigkeiten sind (Muster, die zufällig in den beobachteten Fällen zutreffen), sondern aus grundlegenderen Fakten darüber, wie die Welt funktioniert, abgeleitet werden können oder sich als mit diesen vereinbar erweisen.

Die tiefste Form dieser Verankerung ist die Ableitung aus ersten Prinzipien: die Herleitung der Vorhersagen eines Modells durch logische Schlussfolgerung aus grundlegenden Axiomen, ohne in den Zwischenschritten auf empirische Beobachtungen zurückzugreifen. Als Maxwell die Existenz und Geschwindigkeit elektromagnetischer Wellen rein aus seinen vier Gleichungen des Elektromagnetismus ableitete (Gleichungen, die selbst aus fundierten experimentellen Erkenntnissen über elektrische und magnetische Felder folgten), extrapolierte er kein Muster aus Daten. Er folgte einer Kette logischer Notwendigkeit von den Prämissen bis zur Schlussfolgerung. Die elektromagnetische Welle wurde nicht durch Beobachtung entdeckt; sie wurde durch logisches Denken abgeleitet, und die Beobachtung erfolgte erst danach, um zu bestätigen, was das logische Denken bereits festgestellt hatte. Dies ist der Maßstab, an dem alle anderen Formen der Begründung gemessen werden. Ein Modell, das sich deduktiv aus ersten Prinzipien ableiten lässt, passt nicht nur zu den Beobachtungen; es musste zu ihnen passen, da die Prämissen wahr sind.⁵

Die meisten Modelle in Wissenschaft und Alltag erreichen diesen Maßstab nicht, und das ist keine Kritik an ihnen. Eine deduktive Begründung aus ersten Prinzipien ist nur in Bereichen möglich, in denen die grundlegenden Axiome selbst gut etabliert und die relevante Mathematik handhabbar sind. Außerhalb der Physik und bis zu einem gewissen Grad der Chemie basieren Modelle häufiger auf dem, was man als mechanistisches Verständnis bezeichnen könnte: dem Wissen um den kausalen Prozess, durch den ein Ergebnis zustande kommt. Betrachten wir zwei Modelle desselben Phänomens: eines, das lediglich ein beobachtetes Muster beschreibt („In der untersuchten Stichprobe schneiden Personen, die weniger als 6 Stunden pro Nacht schlafen, am folgenden Tag bei Gedächtnisaufgaben schlechter ab“), und eines, das diese Beobachtung mit tieferem mechanistischem Wissen über synaptische Konsolidierung, die Rolle des Slow-Wave-Schlafs bei der Gedächtnisbildung und die Biochemie der Adenosin-Clearance verknüpft. Beide Modelle treffen dieselbe Vorhersage über den Zusammenhang zwischen Schlaf und Gedächtnis. Das fundierte Modell leistet jedoch mehr: Es sagt uns, welche Interventionen das Ergebnis beeinflussen sollten, welche scheinbar ähnlichen Phänomene dasselbe Muster zeigen sollten und welche scheinbar ungleichen Phänomene auf einer tieferen Ebene dasselbe sind, nur in einer anderen Gestalt. Es sagt uns auch, wo das Muster möglicherweise zusammenbricht und unter welchen Bedingungen sich die Beziehung zwischen Schlaf und Gedächtniskonsolidierung ändern würde, da der tiefer liegende Mechanismus unter diesen Bedingungen anders funktioniert.

Das Spektrum reicht also von der rein empirischen Verallgemeinerung an einem Ende (ein in den Daten beobachtetes Muster, ohne Erklärung, warum es gilt) über die mechanistische Begründung in der Mitte bis hin zur vollständigen deduktiven Ableitung aus ersten Prinzipien am anderen Ende. Je weiter wir uns auf diesem Spektrum bewegen, desto größer werden Reichweite und Zuverlässigkeit der Modelle. Eine rein empirische Verallgemeinerung gilt innerhalb der beobachteten Fälle und kann außerhalb davon gelten oder auch nicht; es gibt keine prinzipielle Möglichkeit, dies zu wissen. Ein mechanistisch begründetes Modell gilt überall dort, wo der Mechanismus wirkt; seine Grenzen sind die Grenzen des Mechanismus. Ein deduktiv begründetes Modell gilt überall dort, wo die Axiome gelten; seine Grenzen sind die Grenzen seiner Grundlagen. Der Abstand zwischen diesen Positionen ist nicht nur eine Frage der intellektuellen Klarheit. Es ist eine praktische Frage, inwieweit wir dem Modell vertrauen können, wenn wir es auf Bedingungen anwenden, denen wir noch nicht begegnet sind.

Darauf wies Wilhelm von Ockham hin, als er das Prinzip formulierte, das heute als Ockhams Rasiermesser bekannt ist: dass unter sonst gleichen Umständen Erklärungen, die weniger unabhängige Annahmen heranziehen, denen vorzuziehen sind, die mehr heranziehen.⁶ Je tiefer die Begründung (und noch tiefer, wenn diese Begründung bis zur Ableitung aus ersten Prinzipien reicht), desto weniger unabhängige Annahmen sind erforderlich. Eine einzige grundlegende Gleichung leistet die Erklärungsarbeit, für die sonst viele separate empirische Verallgemeinerungen nötig wären. Die Begründung in tieferen Prinzipien ist nicht bloß eine ästhetische Vorliebe für Eleganz. Es ist ein praktisches Kriterium für Modelle, die auch dann noch funktionieren, wenn sie außerhalb der spezifischen Bedingungen angewendet werden, unter denen sie entwickelt wurden.

Dieses Kriterium lässt sich unmittelbar auf die Modelle anwenden, die wir im alltäglichen Denken verwenden. Eine Überzeugung über eine Person, eine Politik oder ein soziales Phänomen ist zuverlässiger, wenn sie auf einem allgemeinen Prinzip beruht, das sich in vielen verschiedenen Fällen bewährt hat, als wenn sie allein auf einer spezifischen Beobachtung beruht. Die Überzeugung, dass eine bestimmte Person nicht vertrauenswürdig ist, weil sie einmal gelogen hat, ist weniger fundiert und dementsprechend weniger zuverlässig als eine Überzeugung, die auf dem Wissen über die psychologischen Bedingungen, unter denen Täuschung auftritt, darüber, wie hartnäckig Täuschungstendenzen sind, und darüber, was strategische Täuschung von situativer Unehrlichkeit unterscheidet, beruht. Die erste Überzeugung mag richtig sein. Die zweite ist jedoch eher in der Lage, genaue Vorhersagen für ein breiteres Spektrum zukünftiger Situationen zu treffen.

Es lohnt sich, an dieser Stelle innezuhalten und eine Frage zu stellen, die die vorangegangene Analyse aufwirft, aber noch nicht beantwortet hat: Kann ein Modell eine starke Vorhersagekraft haben, während es nur wenig oder gar keine Erklärungskraft besitzt? Die Antwort lautet ja, und die Beispiele sind aufschlussreich. Versicherungsmathematische Sterbetafeln sagen mit bemerkenswerter Präzision voraus, wie viele Menschen einer bestimmten demografischen Kohorte in einem bestimmten Jahr sterben werden, ohne zu erklären, warum eine bestimmte Person sterben wird. Kreditbewertungsmodelle sagen Ausfallraten in großen Populationen mit hoher Genauigkeit voraus, ohne eine kausale Erklärung für den Mechanismus zu liefern, der eine bestimmte Variable mit dem finanziellen Ausfall verknüpft. Am auffälligsten ist, dass die maschinellen Lernsysteme, die heute Tumore in radiologischen Aufnahmen mit einer Genauigkeit identifizieren, die der erfahrener Kliniker in nichts nachsteht, überhaupt kein erklärendes Modell für Krebs haben; sie haben gelernt, Muster in Trainingsdaten zu erkennen, deren kausale Struktur ihnen gänzlich undurchsichtig bleibt. In jedem Fall wurde Vorhersagegenauigkeit ohne erklärendes Verständnis erkauft.

Diese Modelle weisen eine spezifische und schwerwiegende Schwachstelle auf, die durch eine erklärende Grundlage verhindert werden könnte. Ein Modell, das Muster erfasst, ohne die Mechanismen zu verstehen, bezieht seine Zuverlässigkeit aus der Stabilität der Bedingungen, unter denen es trainiert wurde. Wenn sich diese Bedingungen ändern (wenn eine Pandemie ausbricht und die Sterbetafeln auf den Kopf stellt, wenn eine Finanzkrise das Verhältnis zwischen Kreditvariablen und Ausfällen neu definiert, wenn ein neuartiger Tumortyp auftritt, der in den Trainingsdaten fehlte), versagt das Modell ohne Vorwarnung, da es keinen Mechanismus gibt, der es darauf hinweist, dass sein Gültigkeitsbereich überschritten wurde. Erklärungskraft hingegen wandelt diese geliehene Zuverlässigkeit in eigene Zuverlässigkeit um: Ein auf dem Mechanismus basierendes Modell behält seine Gültigkeit überall dort, wo der Mechanismus wirkt, und verliert sie nur, wenn sich der Mechanismus selbst ändert – was ein vorhersehbares und oft erkennbares Ereignis ist. Der Unterschied zwischen einer Vorhersage, die weiß, warum sie funktioniert, und einer Vorhersage, die lediglich funktioniert, ist daher nicht nur akademischer Natur. Es ist der Unterschied zwischen einem Modell, das seine eigenen Grenzen vorhersehen kann, und einem, das sie erst im Scheitern entdeckt.⁷

Diese Beobachtung verbindet die dritte Eigenschaft direkt mit der vierten. Ein Modell mit starker Vorhersagekraft, aber schwacher Erklärungskraft ist besonders anfällig für den im nächsten Abschnitt beschriebenen Fehlermodus: das Versäumnis, seine eigenen Grenzen im Voraus zu kennen.

Die vierte Eigenschaft: die Grenzen kennen

Das vierte Kriterium ist dasjenige, das am wenigsten Beachtung findet und den größten Schaden anrichtet, wenn es vernachlässigt wird. Ein Modell kennt seine Grenzen, wenn seine Befürworter im Voraus und nicht erst im Nachhinein die Bedingungen angeben können, unter denen die Vorhersagen des Modells unzuverlässig werden, den Bereich, jenseits dessen seine Erklärungen nicht mehr gelten, und die Beobachtungen, die als Gegenbeweis gegen das Modell dienen würden.

Jedes Modell hat Grenzen. Dies ist kein Mangel, für den man sich entschuldigen müsste; es ist ein strukturelles Merkmal dessen, was es überhaupt bedeutet, ein Modell zu sein. Ein Modell, das jedes Merkmal des von ihm dargestellten Gebiets erfassen würde, wäre kein Modell; es wäre das Gebiet selbst. Ein U-Bahn-Plan, der jede Kurve jedes Tunnels, jede geologische Formation, durch die die Gleise verlaufen, sowie jede Änderung von Steigung und Luftdruck zeigen würde, wäre gerade wegen seiner Vollständigkeit nutzlos. Auslassungen sind kein Versagen des Modells; sie sind das, was das Modell zu einem Modell macht. Entscheidend ist jedoch, ob die Auslassungen anerkannt werden und ob die Nutzer des Modells wissen, welche Fragen sie anderweitig klären müssen.

Newtons Bewegungsgesetze gehören zu den am genauesten bestätigten wissenschaftlichen Aussagen in der Geschichte der menschlichen Forschung. Getestet an den Umlaufbahnen von Planeten, den Flugbahnen von Projektilen und der Bewegung jedes makroskopischen Objekts, das sich mit Geschwindigkeiten weit unterhalb der Lichtgeschwindigkeit bewegt, haben sie sich in außerordentlichem Maße als zuverlässig erwiesen. Sie versagen jedoch vollständig und unwiderruflich bei den Geschwindigkeiten, die subatomare Teilchen erreichen, und in den Größenordnungen, in denen die Quantenmechanik gilt. Ein Physiker, der diese Grenzen nicht kennt, würde Newtons Gesetze dort anwenden, wo sie nicht gelten, und wäre systematisch im Unrecht, ohne zu wissen, warum. Die Tatsache, dass Newtons Gesetze auf Quantenebene falsch sind, mindert ihren Wert in dem Bereich, in dem sie funktionieren, nicht. Was ihren Wert mindern würde, wäre, sie außerhalb dieses Bereichs anzuwenden und dabei zu glauben, sie gälten weiterhin.⁸

Das gleiche Prinzip gilt für jedes Modell, das wir verwenden. Das Modell des wirtschaftlichen Verhaltens, das in stabilen, wettbewerbsorientierten Märkten zuverlässig funktioniert, funktioniert nicht unbedingt unter Bedingungen extremer Knappheit oder sozialer Umbrüche. Das Modell der Persönlichkeit eines Freundes, das sein Verhalten in vertrauten Situationen genau vorhersagt, kann völlig versagen, wenn er mit Umständen konfrontiert wird, denen er noch nie zuvor begegnet ist. Das Selbstmodell, das korrekt beschreibt, wer wir mit 30 waren, beschreibt vielleicht nicht, wer wir mit 50 sind. In jedem Fall kommt es nicht darauf an, dass das Modell irgendwann versagt (das ist unvermeidlich), sondern darauf, ob wir im Voraus wussten, dass es unter diesen spezifischen Bedingungen versagen würde.

Die diagnostische Frage, die „The Conscious Look“ für alle Bereiche empfiehlt, gilt hier in ihrer grundlegendsten Form: Was müsste wahr sein, damit dieses Modell falsch ist? Wenn die Antwort „nichts“ lautet, wenn jede mögliche Beobachtung mit dem Modell vereinbar ist, dann sind die Grenzen des Modells unsichtbar, was bedeutet, dass es überall angewendet werden kann und letztlich genau dort Schaden anrichtet, wo es nicht mehr zutrifft.

Die Karte und das Gebiet

Der Philosoph Alfred Korzybski stellte in einem Satz fest, der zur Leitmetapher dieser Reihe geworden ist, dass die Karte nicht das Gebiet ist.⁹ Diese Beobachtung ist so einfach, dass sie als Binsenweisheit aufgefasst und beiseitegeschoben werden kann. Sie verdient jedoch mehr Aufmerksamkeit.

Die Karte ist in einem spezifischen und wichtigen Sinne nicht das Gebiet: Die Karte ist eine selektive, vereinfachte, zweckgerichtete Darstellung eines Gebiets, das unabhängig von jeder Darstellung existiert. Das Territorium weist Merkmale auf, die die Karte nicht zeigt. Das Territorium hat Grenzen, die nicht die Ränder der Karte sind. Im Territorium geschehen Dinge, vor denen die Karte nicht warnt. Und vor allem verändert sich das Territorium nicht, wenn sich die Karte verändert: Ein Kartograf, der eine Straße zeichnet, wo keine Straße existiert, schafft dadurch keine Straße.

Die vier in diesem Artikel diskutierten Kriterien (Erklärungskraft, Vorhersagekraft, Verankerung in tieferen Prinzipien und bekannte Grenzen) sind Möglichkeiten, zu hinterfragen, wie gut eine bestimmte Karte ist. Eine Karte mit starker Erklärungskraft ordnet die Merkmale des Gebiets zu einem lesbaren Muster. Eine Karte mit starker Vorhersagekraft sagt uns, was wir vorfinden werden, wenn wir an einen Ort gehen, an dem wir bisher nicht waren. Eine auf tieferen Prinzipien basierende Karte leitet ihren Aufbau aus der Kenntnis des Geländes ab und nicht aus willkürlichen Konventionen. Und eine Karte, die ihre Grenzen kennt, verfügt über eine Legende, die angibt, wo die Genauigkeit der Karte überprüft wurde und wo es sich um eine Extrapolation handelt.

Keine Karte erfüllt alle vier Kriterien perfekt. Die angemessene Reaktion auf diese Tatsache besteht nicht darin, die Karte aufzugeben, da wir ohne sie nicht navigieren können, sondern darin, sie mit der Mischung aus Zuversicht und Demut zu betrachten, die ihre tatsächliche Qualität rechtfertigt. Zuversicht, weil die Karte der beste verfügbare Wegweiser durch das Gebiet ist und Handeln ohne Wegweiser keine Form der Freiheit, sondern eine Form der Blindheit ist. Demut, weil das Gebiet immer größer, komplexer und überraschender ist als die Karte.

Dies ist der Beginn des „bewussten Blicks“: nicht die Aufgabe unserer Modelle, sondern die Praxis, sie ehrlich anhand der Maßstäbe zu bewerten, die eine gute Karte von einer schlechten unterscheiden.

Weiterführende Literatur

George E. P. Box und Norman R. Drapers Empirical Model-Building and Response Surfaces (1987) enthält Box’ berühmte Feststellung, dass alle Modelle falsch sind, aber einige nützlich, was vielleicht die prägnanteste Formulierung des Arguments ist, das dieser Artikel ausführlich dargelegt hat. Box war Statistiker, und das Buch ist fachspezifisch, doch die philosophischen Implikationen dieser Feststellung reichen weit über die Statistik hinaus.

Peter Godfrey-Smiths „Theory and Reality: An Introduction to the Philosophy of Science“ (2003) ist der ausgewogenste und zugänglichste Leitfaden zu den philosophischen Fragen, mit denen sich dieser Artikel befasst hat: Was wissenschaftliche Theorien sind, in welcher Beziehung sie zur Welt stehen und was eine gute Theorie von einer schlechten unterscheidet. Godfrey-Smith äußert sich außerordentlich klar zur Frage der Falsifizierbarkeit und ihrer Grenzen.

Daniel Kahnemans „Thinking, Fast and Slow“ (2011) liefert den kognitionswissenschaftlichen Hintergrund für die Frage, warum wir das Gefühl des Verstehens so leicht mit echter Erklärungskraft verwechseln – was er als „Illusion des Verstehens“ bezeichnet, die zu den folgenreichsten der von ihm beschriebenen kognitiven Verzerrungen zählt.

Karl Poppers „The Logic of Scientific Discovery“ (1934, englische Übersetzung 1959) ist der Grundlagentext für die im zweiten Abschnitt dieses Artikels entwickelte Argumentation zur Falsifizierbarkeit. Poppers These, dass das Kennzeichen einer wissenschaftlichen Theorie ihre Falsifizierbarkeit und nicht ihre Bestätigbarkeit ist, hat die Wissenschaftsphilosophie revolutioniert und bleibt der Ausgangspunkt für fast jede nachfolgende Diskussion.

Anmerkungen

¹ Der philosophische Begriff für diese Eigenschaft ist der kontrastive Charakter einer echten Erklärung: Eine Erklärung ist echt, wenn sie nicht nur die Frage „Warum ist dies geschehen?“ beantworten kann, sondern auch die Frage „Warum ist dies geschehen und nicht etwas anderes?“ Eine Erklärung, die beide Fragen gleichermaßen leicht beantwortet und die genauso gut funktionieren würde, wenn die Beobachtung anders ausgefallen wäre, besteht den kontrastiven Test nicht und liefert daher keine Erklärung im tieferen Sinne. Der Psychologe Peter Wason dokumentierte die menschliche Tendenz, eher bestätigende als widerlegende Beweise zu suchen, in seiner berühmten 2-4-6-Aufgabe, die 1960 veröffentlicht wurde und zu den am häufigsten replizierten Ergebnissen in der Erforschung des menschlichen Denkens zählt.

² Die Unterscheidung zwischen der Erklärungskraft und den Vorhersagegrenzen der Evolutionstheorie wurde in der Philosophie der Biologie ausführlich diskutiert. Der Philosoph Elliott Sober hat in seinem Werk The Nature of Selection (1984) und nachfolgenden Arbeiten argumentiert, dass die Evolutionstheorie am besten als Erklärung dafür verstanden wird, warum Anpassungen existieren, anstatt vorherzusagen, welche entstehen werden – eine Unterscheidung, die genau dem in diesem Artikel entwickelten Kontrast zwischen retrospektiver Erklärung und prospektiver Vorhersage entspricht. Die offensichtliche Schwäche der Theorie bei spezifischen Vorhersagen ist kein Mangel, sondern eine Folge der Natur des Mechanismus, den sie beschreibt: Die natürliche Selektion wirkt auf Variationen ein, die selbst durch Prozesse (genetische Mutation, Rekombination, Umweltstörungen) hervorgebracht werden, die entweder von Natur aus zufällig sind oder zu empfindlich auf Anfangsbedingungen reagieren, um präzise Langzeitvorhersagen zu ermöglichen. Dies ist kein Versagen der Theorie. Es ist eine ehrliche Darstellung dessen, was der Mechanismus uns im Voraus sagen kann und was nicht.

³ Die Forderung, dass echte Vorhersagen falsifizierbar sein müssen, wird in erster Linie mit dem Philosophen Karl Popper in Verbindung gebracht, der sie als Kriterium zur Abgrenzung zwischen wissenschaftlichen und unwissenschaftlichen Behauptungen entwickelte. Poppers ursprüngliche Motivation bestand darin, Einsteins allgemeine Relativitätstheorie, die spezifische, präzise Vorhersagen machte, die im Prinzip getestet und widerlegt werden konnten, von der Freudschen Psychoanalyse und der marxistischen Geschichtstheorie zu unterscheiden, von denen er argumentierte, dass sie jede mögliche Beobachtung unterbringen könnten. Das Falsifizierbarkeitskriterium wurde seit Poppers Vorschlag ausführlich diskutiert, und die meisten Wissenschaftsphilosophen betrachten es heute als notwendig, aber nicht ausreichend als Kriterium für den wissenschaftlichen Status. Für die Zwecke dieser Reihe ist der wichtigere Punkt die schwächere Behauptung: Vorhersagen, die nicht falsch sein können, liefern keinen Beweis für das Modell, das sie hervorbringt.

⁴ Kahneman beschreibt dies als den narrativen Trugschluss, die Tendenz, zusammenhängende Geschichten über vergangene Ereignisse zu konstruieren, die ihnen ein Gefühl der Unvermeidbarkeit verleihen, das sie vor ihrem Eintreten nicht hatten. Das damit verbundene Phänomen, das er als Rückblickverzerrung bezeichnet, ist die Tendenz zu glauben, dass wir ein Ergebnis im Nachhinein hätten vorhersagen können, nachdem es bekannt ist. Beide Verzerrungen überhöhen systematisch unser Vertrauen in die Vorhersagekraft unserer Modelle, indem sie Erklärungen rückwirkend in Vorhersagen umwandeln.

⁵ Das deutlichste historische Beispiel für eine Ableitung empirischer Vorhersagen aus ersten Prinzipien ist James Clerk Maxwells Herleitung der elektromagnetischen Strahlung in seiner Abhandlung von 1865 „A Dynamical Theory of the Electromagnetic Field“. Ausgehend von seinen vier Gleichungen, die das Verhalten elektrischer und magnetischer Felder beschreiben (Gleichungen, die selbst Jahrzehnte experimenteller Arbeit von Faraday und anderen zusammenfassten), leitete Maxwell durch rein mathematisches Denken ab, dass sich oszillierende elektrische und magnetische Felder als Welle durch den Raum ausbreiten würden und dass diese Welle sich mit Lichtgeschwindigkeit fortbewegen würde. Die Identität des Lichts als elektromagnetische Welle war daher keine experimentelle Entdeckung im üblichen Sinne; sie war eine deduktive Konsequenz aus Maxwells Gleichungen. Heinrich Hertz bestätigte die Existenz elektromagnetischer Wellen experimentell im Jahr 1887, 22 Jahre nach Maxwells Ableitung. Diese Abfolge (zuerst die Ableitung, dann die Beobachtung, wobei die Beobachtung bestätigte, was die Logik bereits festgestellt hatte) ist der Goldstandard wissenschaftlicher Fundierung, und ihre Seltenheit macht jeden einzelnen Fall umso lehrreicher. Die gleiche logische Struktur findet sich in Einsteins allgemeiner Relativitätstheorie, wo die Präzession der Merkurbahn und die Lichtablenkung um die Sonne deduktive Konsequenzen der Feldgleichungen waren, die erst durch Beobachtung bestätigt wurden, nachdem die Mathematik bereits bestimmt hatte, was die Beobachtungen zeigen mussten.

⁶ William von Ockham (ca. 1287–1347) war ein englischer Franziskanermönch und Philosoph, dessen Prinzip der Sparsamkeit (dass Entitäten nicht über das Notwendige hinaus vermehrt werden sollten) in der Geschichte der Wissenschaft und Philosophie vielfach neu formuliert wurde. Die Version, die im heutigen Sprachgebrauch gemeinhin als Ockhams Rasiermesser bezeichnet wird, ist eine grobe Annäherung an sein ursprüngliches Argument, das in eine umfassendere nominalistische Philosophie eingebettet war. Das Rasiermesser ist ein heuristisches, kein logisches Prinzip: Einfachere Erklärungen sind nicht immer richtig. Doch im Kontext der Wahl zwischen Modellen mit gleicher Vorhersagekraft ist das einfachere Modell, dasjenige, das weniger unabhängige Annahmen erfordert, im Allgemeinen vorzuziehen, da es sich mit größerer Wahrscheinlichkeit korrekt auf neue Fälle verallgemeinern lässt.

⁷ Die Anfälligkeit musterbasierter Modelle gegenüber Regimewechseln wurde im Kontext des maschinellen Lernens unter dem Begriff „Verteilungsverschiebung“ (distribution shift) umfassend untersucht: das Versagen eines Modells, das auf Daten einer bestimmten Verteilung trainiert wurde, wenn es auf Daten einer anderen Verteilung trifft. Die Finanzkrise von 2008 lieferte ein dramatisches Beispiel aus der Praxis: Kreditrisikomodelle, die auf Daten aus der vorangegangenen Phase relativer Stabilität trainiert wurden, unterschätzten unter Stressbedingungen systematisch die Ausfallkorrelationen, da die Daten aus der stabilen Phase keine Informationen darüber enthielten, wie sich das System unter den neuartigen Bedingungen eines gleichzeitigen Zusammenbruchs über mehrere Anlageklassen hinweg verhalten würde. Die Modelle lagen innerhalb ihres Trainingsbereichs nicht falsch; sie lagen falsch in Bezug darauf, wo ihr Bereich endete. Genau dieses Versagen soll durch die erklärende Verankerung verhindert werden: Ein Modell, das den Mechanismus versteht, durch den Kreditausfälle auftreten, kann im Prinzip ableiten, wie sich dieser Mechanismus unter neuen Stressbedingungen verhält, auch ohne solche Bedingungen direkt beobachtet zu haben.

⁸ Das Versagen der Newtonschen Mechanik bei hohen Geschwindigkeiten war eines der zentralen Probleme, das Einstein 1905 zur Entwicklung der speziellen Relativitätstheorie motivierte. Die Umlaufbahn des Merkur um die Sonne weist eine geringe Präzession auf (eine langsame Drehung der Umlaufbahnellipse), die die Newtonsche Mechanik nicht vollständig erklären konnte. Das genaue Ausmaß dieser Präzession war eine der ersten quantitativen Vorhersagen der allgemeinen Relativitätstheorie, die durch spätere Beobachtungen bestätigt wurde. Die Tatsache, dass Newtons Gesetze eine Annäherung sind (innerhalb eines definierten Bereichs außerordentlich genau und außerhalb davon systematisch falsch), gehört zu den deutlichsten Belegen für die These dieses Abschnitts: Modelle können außerordentlich nützlich sein, obwohl sie in gewissem Sinne falsch sind.

⁹ Alfred Korzybski (1879–1950) war ein polnisch-amerikanischer Philosoph und Ingenieur, der 1931 in einer Rede vor der American Mathematical Society die Unterscheidung zwischen Karte und Territorium einführte. Sein umfassenderes Projekt, das er „Allgemeine Semantik“ nannte, war ein Versuch, das menschliche Denken zu verbessern, indem er die Beziehung zwischen Wörtern, Gedanken und der Welt verdeutlichte. Sein Hauptwerk, Science and Sanity (1933), ist anspruchsvoll, aber lohnenswert. Der Satz „Die Karte ist nicht das Gebiet“ hat sich seitdem weit über den Kontext von Korzybskis ursprünglicher Argumentation hinaus im allgemeinen Sprachgebrauch etabliert, was in einer Hinsicht bedauerlich ist (seine volle philosophische Kraft geht bei der Popularisierung oft verloren) und in einer anderen Hinsicht erfreulich: Er ist zu einer der am weitesten verbreiteten epistemischen Warnungen geworden.

102 – Was ist ein Model