102 – Was ist ein Model

Erklärungskraft, Vorhersage und die Kunst, die Grenzen zu kennen

Es gibt einen Plan der Londoner U-Bahn, der mehr als eine Milliarde Mal reproduziert wurde. Er hängt in Waggons und Schalterhallen, erscheint in Reiseführern und auf Telefondisplays und ist weltweit bekannter als fast jedes andere Stück Grafikdesign. Er ist außerdem, nach jedem üblichen kartografischen Maßstab, falsch. Die Abstände zwischen den Stationen haben nichts mit den tatsächlichen Entfernungen unter der Erde zu tun. Die Kurven und Biegungen der Tunnel sind zu sauberen waagerechten, senkrechten und diagonalen Linien begradigt. Die Themse, die die Züge an mehreren Stellen kreuzen, ist auf einen dezent geschlängelten Zierstrich reduziert. Und doch funktioniert der Plan. Für den Zweck, zu dem er entworfen wurde — Fahrgästen zu helfen, von einer Station zur nächsten zu finden —, ist er wohl einer der gelungensten Pläne, die je gemacht wurden. Seine Genauigkeit ist eine unmittelbare Folge seiner Unvollständigkeit.

Das ist nicht bloß eine Kuriosität aus dem Grafikdesign. Es ist eine Beschreibung dessen, wie alle nützlichen Darstellungen der Welt arbeiten. Was wir ein Modell nennen — in dem genauen Sinn, in dem diese Reihe das Wort verwendet —, ist jede innere oder äußere Darstellung, die die Merkmale eines Weltausschnitts ordnet, Erwartungen darüber erzeugt, was als Nächstes in diesem Ausschnitt geschehen wird, und das Handeln entsprechend anleitet. Der U-Bahn-Plan ist ein Modell. Newtons Bewegungsgleichungen sind ein Modell. Unser Verständnis vom Charakter einer Kollegin ist ein Modell. Die Geschichte, die wir uns selbst darüber erzählen, wer wir sind und was uns wichtig ist, ist ein Modell. Was ein nützliches Modell von einem nutzlosen unterscheidet, ist nicht seine Übereinstimmung mit jedem Merkmal des Territoriums, das es darstellt — kein Modell erreicht das, und die, die es versuchen, sind meist die unbrauchbarsten. Was ein nützliches Modell auszeichnet, ist etwas Genaueres: das Zusammenspiel von Erklärungskraft, Vorhersagekraft, einer Verankerung in tieferen Prinzipien und — der am meisten vernachlässigten der vier Eigenschaften — einer ehrlichen Auskunft darüber, wo das Modell zu greifen aufhört.

Dieser Artikel betrachtet jede dieser vier Eigenschaften der Reihe nach. Zusammen bilden sie einen Maßstab, an dem sich jeder Wissensanspruch messen lässt. Ob wir eine wissenschaftliche Theorie, ein politisches Argument, eine persönliche Überzeugung oder unsere am festesten gehaltenen Auffassungen prüfen — dieselben vier Fragen gelten: Erklärt dieses Modell die einschlägigen Beobachtungen? Macht es Vorhersagen, die falsch sein können? Ist es in etwas Grundlegenderem verankert? Und kennt es seine eigenen Grenzen?

Die erste Eigenschaft: Erklärungskraft

Ein Modell hat Erklärungskraft, wenn es eine Reihe von Beobachtungen, die zuvor zusammenhangs- oder beliebig wirkten, in eine kohärente Darstellung bringt, die sie weniger überraschend macht. Vor Newton waren der Flug einer Kanonenkugel, der Fall eines Apfels und der Lauf des Mondes drei getrennte Phänomene, jedes mit eigener Beschreibung. Nach Newton waren sie drei Fälle eines einzigen zugrunde liegenden Zusammenhangs zwischen Masse, Abstand und Kraft. Die Beobachtungen hatten sich nicht geändert. Geändert hatte sich der Bezugsrahmen, in den sie gestellt wurden — und mit dieser Veränderung kam das beglückende Gefühl des Verstehens, das echten Erklärungsfortschritt kennzeichnet.

Dieses Gefühl des Verstehens verdient sorgfältige Prüfung, denn es kann uns ebenso leicht in die Irre führen wie leiten. Eine Verschwörungstheorie, ein Aberglaube und ein gut bestätigtes wissenschaftliches Gesetz erzeugen alle dasselbe subjektive Gefühl erklärerischer Befriedigung — den Eindruck, dass zuvor rätselhafte Beobachtungen jetzt einen Sinn ergeben, dass die Teile zusammenpassen, dass wir verstehen, warum die Dinge so abgelaufen sind. Was die Verschwörungstheorie vom wissenschaftlichen Gesetz unterscheidet, ist nicht das Gefühl des Verstehens, sondern die Qualität der Erklärungsstruktur: ob sie die Beobachtungen, die sie zu erklären beansprucht, tatsächlich ordnet, ob sie das wirtschaftlicher tut als konkurrierende Erklärungen, und ob sie genauso gut funktionieren würde, wenn die Beobachtungen anders ausgefallen wären.

Eben dieses letzte Kriterium ist einer der nützlichsten Prüfsteine, die verfügbar sind. Ein Modell mit echter Erklärungskraft würde nicht beliebige Beobachtungen gleich gut erklären — es würde diesen bestimmten Beobachtungssatz erklären, und ein anderes Modell wäre nötig, um einen anderen Satz zu erklären. Ein Modell, das alles mit gleicher Leichtigkeit erklärt, gleichgültig was die Daten zeigen, erklärt in einem belastbaren Sinn nichts. Das astrologische Charakterprofil, das der Klientin ihre Persönlichkeit offenbart, nachdem man ihr Sternzeichen erfragt hat, ist kein Beleg für Erklärungskraft; es ist ein Beleg für die menschliche Fähigkeit, in hinreichend vagen Beschreibungen bestätigende Muster zu finden. Echte Erklärungskraft ist selektiv: Sie macht manche Beobachtungen erwartbar und andere überraschend — und die Beobachtungen, die tatsächlich eingetreten sind, sind die erwartbaren.¹

Die Evolutionstheorie durch natürliche Auslese veranschaulicht eine wichtige Asymmetrie, die jede ehrliche Darstellung von Erklärungskraft anerkennen muss: Ein Modell kann Erklärungskraft höchsten Ranges besitzen, während seine Vorhersagekraft im Umfang strukturell begrenzt bleibt. Darwins Theorie ordnet eine außerordentlich weite Spanne von Beobachtungen — den Fossilbericht, die geografische Verteilung der Arten, die molekularen Ähnlichkeiten zwischen Organismen, die Existenz rudimentärer Strukturen, das Auftreten von Antibiotikaresistenzen bei Bakterien — in einen einzigen kohärenten Rahmen aus Variation, Selektion und Vererbung. Ihre Erklärungsreichweite ist tatsächlich außerordentlich. Doch was die Theorie an spezifischer Vorhersage leistet, ist durch die Natur des Mechanismus eingeschränkt, den sie beschreibt. Die Evolutionstheorie sagt voraus, dass Anpassungsdruck Anpassungen hervorbringen wird. Sie kann nicht im Voraus sagen, welche bestimmten Anpassungen entstehen, denn die verfügbare genetische Variation, die genaue Beschaffenheit des Selektionsdrucks und die Abfolge zufälliger geschichtlicher Ereignisse sind sämtlich im Voraus unerkennbar. Wir können zuverlässig vorhersagen, dass eine Bakterienpopulation, die einem Antibiotikum ausgesetzt ist, schließlich Resistenz entwickeln wird; wir können nicht vorhersagen, welche bestimmten Mutationen das leisten werden. Wir können vorhersagen, dass eine auf einer Insel isolierte Population sich von ihren Verwandten auf dem Festland abspalten wird; wir können nicht vorhersagen, ob die Abspaltung sich in Körpergröße, Färbung, Schnabelform oder einer Mischung aus allem zeigt. Die Theorie wird durch diese Begrenzung nicht geschwächt — sie wird durch sie geklärt. Erklärungskraft und Vorhersagekraft sind verschiedene Eigenschaften, und ein Modell kann die eine im Überfluss besitzen, während die andere nur teilweise oder in einem eingeschränkten Bereich verfügbar ist.²

Die zweite Eigenschaft: Vorhersagekraft

Die Erklärungskraft blickt zurück, auf bereits gemachte Beobachtungen. Die Vorhersagekraft blickt nach vorn, auf noch nicht gemachte. Ein Modell hat Vorhersagekraft, wenn es im Voraus angibt, was unter bisher nicht geprüften Bedingungen zu beobachten sein wird — und wenn diese Vorhersagen spezifisch genug sind, um falsch sein zu können.

Die Bedeutung dieses letzten Nebensatzes kann nicht überschätzt werden. Eine Vorhersage, die mit jedem möglichen Ausgang vereinbar ist, ist gar keine Vorhersage. Sie ist eine Beschreibung in der grammatischen Form einer Prognose. Das ökonomische Modell, das je nach „Bedingungen“ Wachstum oder Schrumpfung vorhersagt; die medizinische Behandlung, deren Befürworter behaupten, sie wirke, außer wenn nicht; die politische Theorie, die jedes Wahlergebnis als Bestätigung ihrer Grundsätze deutet — nichts davon macht echte Vorhersagen, denn nichts davon legt sich in der Weise fest, wie echte Vorhersage es verlangt.

Was eine Vorhersage zur echten Vorhersage macht, ist ihre Falsifizierbarkeit: die Existenz eines klar angebbaren Ausgangs, der, würde er eintreten, Evidenz gegen das Modell darstellen würde.³ Der Physiker, der die Ablenkung des Lichts um die Sonne auf einen bestimmten Winkelwert vorhersagt und dann eine Sonnenfinsternis beobachtet, um zu prüfen, ob die gemessene Ablenkung übereinstimmt — das ist Vorhersage in dem hier gemeinten Sinn. Die Beobachtung hätte anders ausfallen können. Dass sie es nicht tat, ist informativ. Sie zählt, auf eine Weise, wie unfalsifizierbare Behauptungen nicht zählen können, als Evidenz zugunsten des Modells.

Daraus folgt etwas Praktisches, das weit über die Physik hinausreicht. Wenn wir einem Modell begegnen — von der Wirtschaft, von einem sozialen Phänomen, vom wahrscheinlichen Verhalten eines Menschen —, das alles vorherzusagen scheint, lohnt es sich, ganz konkret zu fragen, was es vorhersagen würde, wenn wir eine bestimmte Variable veränderten. Lautet die Antwort, dass jede Beobachtung, die wir hinterher machen, mit dem Modell vereinbar ist, dann erzeugt das Modell keine echten Vorhersagen; es erzeugt nachträgliche Erklärungen, die sich als Vorhersagen ausgeben. Das rückblickende Gefühl, die Ereignisse seien unvermeidlich gewesen, das Modell habe sie längst kommen sehen, ist eines der zuverlässigsten Anzeichen dafür, dass wir es mit Erklärung statt mit Vorhersage zu tun haben.⁴

Die dritte Eigenschaft: Verankerung in tieferen Prinzipien

Das dritte Kriterium unterscheidet Modelle, die für sich allein stehen, von Modellen, die in eine größere Erklärungsstruktur eingebettet sind. Ein Modell ist in tieferen Prinzipien verankert, wenn seine Aussagen nicht bloß empirische Regelmäßigkeiten sind — Muster, die zufällig in den beobachteten Fällen gelten —, sondern sich aus grundlegenderen Tatsachen darüber, wie die Welt funktioniert, ableiten oder mit ihnen vereinbaren lassen.

Die tiefste Form dieser Verankerung ist die Deduktion aus ersten Prinzipien: die Ableitung der Modellvorhersagen durch logischen Schluss aus grundlegenden Axiomen, ohne dass auf den Zwischenstufen irgendeine empirische Beobachtung herangezogen würde. Als Maxwell aus seinen vier Gleichungen der Elektrodynamik — Gleichungen, die selbst aus gut gesicherten experimentellen Befunden über elektrische und magnetische Felder folgten — die Existenz und Geschwindigkeit elektromagnetischer Wellen ableitete, extrapolierte er kein Muster aus Daten. Er folgte einer Kette logischer Notwendigkeit von Prämissen zum Schluss. Die elektromagnetische Welle wurde nicht durch Hinsehen entdeckt; sie wurde durch Denken abgeleitet, und das Hinsehen kam hinterher, um zu bestätigen, was die Argumentation bereits festgestellt hatte. Das ist der Maßstab, an dem alle anderen Formen der Verankerung gemessen werden. Ein Modell, das sich deduktiv aus ersten Prinzipien ableiten lässt, passt nicht bloß zu den Beobachtungen; es musste zu ihnen passen, wenn die Prämissen wahr sind.⁵

Die meisten Modelle in Wissenschaft und Alltag erreichen diesen Maßstab nicht, und das ist kein Vorwurf an sie. Deduktive Verankerung in ersten Prinzipien ist nur in Bereichen verfügbar, in denen die grundlegenden Axiome selbst gut gesichert sind und die einschlägige Mathematik handhabbar ist. Außerhalb der Physik und, in gewissem Maße, der Chemie sind Modelle häufiger in dem verankert, was man mechanistisches Verständnis nennen könnte: dem Wissen um den ursächlichen Prozess, durch den ein Ergebnis zustande kommt. Stellen Sie sich zwei Modelle desselben Phänomens vor — eines, das schlicht ein beobachtetes Muster beschreibt („in der untersuchten Stichprobe schnitten Personen, die weniger als sechs Stunden pro Nacht schlafen, am Folgetag schlechter in Gedächtnisaufgaben ab“), und eines, das diese Beobachtung mit tieferem mechanistischem Wissen verbindet: über synaptische Konsolidierung, über die Rolle des Tiefschlafs bei der Gedächtnisbildung, über die Biochemie der Adenosin-Clearance. Beide Modelle machen dieselbe Vorhersage über den Zusammenhang von Schlaf und Gedächtnis. Aber das verankerte Modell leistet mehr: Es sagt uns, welche Eingriffe das Ergebnis beeinflussen sollten, welche scheinbar ähnlichen Phänomene dasselbe Muster zeigen sollten, und welche scheinbar unähnlichen Phänomene auf einer tieferen Ebene dasselbe in anderem Gewand sind. Es sagt uns auch, wo das Muster brechen könnte — unter welchen Bedingungen sich der Zusammenhang zwischen Schlaf und Gedächtniskonsolidierung ändern würde, weil der zugrunde liegende Mechanismus dort anders arbeitet.

Das Spektrum reicht also von der rein empirischen Verallgemeinerung am einen Ende — einem in den Daten beobachteten Muster, ohne Erklärung dafür, warum es gilt — über die mechanistische Verankerung in der Mitte bis zur vollen deduktiven Ableitung aus ersten Prinzipien am anderen Ende. Während wir uns auf diesem Spektrum bewegen, gewinnen Modelle an Reichweite und Verlässlichkeit. Eine rein empirische Verallgemeinerung gilt innerhalb der beobachteten Fälle und mag außerhalb gelten oder nicht; einen begründeten Weg, das zu wissen, gibt es nicht. Ein mechanistisch verankertes Modell gilt überall dort, wo der Mechanismus wirkt; seine Grenzen sind die Grenzen des Mechanismus. Ein deduktiv verankertes Modell gilt überall dort, wo die Axiome gelten; seine Grenzen sind die Grenzen seiner Grundlagen. Der Abstand zwischen diesen Positionen ist nicht bloß eine Frage gedanklicher Ordentlichkeit. Es ist eine praktische Frage danach, wie weit wir dem Modell trauen können, wenn wir es in Bedingungen tragen, denen wir bisher nicht begegnet sind.

Genau darauf zielte Wilhelm von Ockham, als er das Prinzip formulierte, das heute Ockhams Rasiermesser heißt: dass bei sonst gleichen Voraussetzungen Erklärungen, die weniger unabhängige Annahmen heranziehen, denen vorzuziehen sind, die mehr heranziehen.⁶ Je tiefer die Verankerung — und noch tiefer dann, wenn diese Verankerung bis zur Deduktion aus ersten Prinzipien reicht —, desto weniger unabhängige Annahmen sind erforderlich. Eine einzige grundlegende Gleichung leistet die Erklärungsarbeit, für die sonst viele getrennte empirische Verallgemeinerungen nötig wären. Verankerung in tieferen Prinzipien ist nicht bloß eine ästhetische Vorliebe für Eleganz. Sie ist ein praktisches Kriterium für Modelle, die weiter funktionieren, wenn man sie aus den spezifischen Bedingungen heraustragen muss, unter denen sie entwickelt wurden.

Dieses Kriterium hat unmittelbare Anwendung auf die Modelle, die wir im alltäglichen Denken benutzen. Eine Überzeugung über einen Menschen, eine politische Maßnahme oder ein gesellschaftliches Phänomen ist verlässlicher, wenn sie in einem allgemeinen Prinzip verankert ist, das sich über viele unterschiedliche Fälle hinweg bewährt hat, als wenn sie allein auf einer einzelnen Beobachtung ruht. Die Überzeugung, eine bestimmte Person sei unaufrichtig, weil sie einmal gelogen hat, hat weniger Verankerung — und ist entsprechend weniger verlässlich — als eine Überzeugung, die im Wissen darüber gegründet ist, unter welchen psychologischen Bedingungen Täuschung auftritt, wie beständig täuscherische Neigungen sind und was strategische Täuschung von situativer Unaufrichtigkeit unterscheidet. Die erste Überzeugung mag richtig sein. Die zweite trifft mit höherer Wahrscheinlichkeit über eine breitere Spanne künftiger Situationen hinweg zu.

An dieser Stelle lohnt es, eine Frage zu stellen, die die bisherige Analyse aufwirft, aber noch nicht beantwortet hat: Kann ein Modell starke Vorhersagekraft haben und dabei wenig oder gar keine Erklärungskraft besitzen? Die Antwort lautet ja — und die Beispiele sind lehrreich. Versicherungsmathematische Sterbetafeln sagen mit bemerkenswerter Genauigkeit voraus, wie viele Menschen in einer bestimmten demografischen Kohorte in einem bestimmten Jahr sterben werden, ohne zu erklären, warum irgendein bestimmter Mensch stirbt. Kredit-Scoring-Modelle sagen Ausfallraten über große Populationen hinweg mit hoher Genauigkeit voraus, ohne eine kausale Darstellung des Mechanismus zu liefern, der irgendeine bestimmte Variable mit dem finanziellen Scheitern verbindet. Am eindrücklichsten: Die Systeme des maschinellen Lernens, die heute Tumoren in Bildgebungen mit einer Genauigkeit erkennen, die der erfahrener Klinikerinnen gleichkommt, haben überhaupt kein Erklärungsmodell von Krebs; sie haben gelernt, Muster in Trainingsdaten zu erkennen, deren kausale Struktur ihnen vollständig undurchsichtig bleibt. In jedem dieser Fälle ist Vorhersagegenauigkeit ohne erklärendes Verständnis erworben worden.

Diese Modelle teilen eine bestimmte und ernste Verwundbarkeit, die erklärende Verankerung verhindern würde. Ein Modell, das Muster erfasst, ohne Mechanismen zu verstehen, leiht sich seine Verlässlichkeit von der Beständigkeit der Bedingungen, unter denen es trainiert wurde. Wenn diese Bedingungen sich ändern — wenn eine Pandemie eintritt und die Sterbetafeln umstürzt, wenn eine Finanzkrise den Zusammenhang zwischen Kreditvariablen und Ausfall neu schreibt, wenn ein neuartiger Tumortyp auftaucht, der in den Trainingsdaten fehlte —, versagt das Modell ohne Vorwarnung, denn es gibt keinen Mechanismus, der es darauf aufmerksam macht, dass sein Gültigkeitsbereich überschritten ist. Erklärungskraft hingegen verwandelt diese geliehene Verlässlichkeit in eigene Verlässlichkeit: Ein Modell, das im Mechanismus verankert ist, behält seine Gültigkeit überall dort, wo der Mechanismus wirkt, und verliert sie nur dann, wenn der Mechanismus selbst sich ändert — und das ist ein vorhersehbares und oft erkennbares Ereignis. Der Unterschied zwischen Vorhersage, die weiß, warum sie funktioniert, und Vorhersage, die bloß funktioniert, ist daher nicht akademisch. Es ist der Unterschied zwischen einem Modell, das seine eigenen Grenzen vorwegnehmen kann, und einem, das sie erst im Versagen entdeckt.⁷

Diese Beobachtung verbindet die dritte Eigenschaft unmittelbar mit der vierten. Ein Modell mit starker Vorhersage- und schwacher Erklärungskraft ist besonders anfällig für den Versagensmodus, den der nächste Abschnitt beschreibt: das Versagen, die eigenen Grenzen im Voraus zu kennen.

Die vierte Eigenschaft: die Grenzen kennen

Das vierte Kriterium erhält die geringste Aufmerksamkeit und richtet bei Vernachlässigung den größten Schaden an. Ein Modell kennt seine Grenzen, wenn seine Vertreter im Voraus — und nicht erst im Rückblick — angeben können, unter welchen Bedingungen die Vorhersagen des Modells unzuverlässig werden, jenseits welcher Domäne seine Erklärungen nicht mehr greifen und welche Beobachtungen Evidenz gegen es darstellen würden.

Jedes Modell hat Grenzen. Das ist kein Mangel, für den man sich entschuldigen müsste; es ist ein strukturelles Merkmal dessen, was es überhaupt heißt, ein Modell zu sein. Ein Modell, das jedes Merkmal des Territoriums erfasste, das es darstellt, wäre kein Modell, sondern das Territorium selbst. Der U-Bahn-Plan, der jede Kurve jedes Tunnels zeigte, jede geologische Formation, die die Gleise durchqueren, jede Änderung des Gefälles und des Luftdrucks — dieser Plan wäre eben wegen seiner Vollständigkeit unbrauchbar. Auslassung ist kein Versagen des Modells; sie ist das, was das Modell zu einem Modell macht. Was zählt, ist, ob die Auslassungen anerkannt werden und ob die Nutzer des Modells wissen, mit welchen Fragen sie woandershin gehen müssen.

Newtons Bewegungsgesetze gehören zu den am genauesten bestätigten wissenschaftlichen Aussagen in der Geschichte menschlicher Erkenntnis. Geprüft an den Bahnen der Planeten, den Flugbahnen von Geschossen und der Bewegung jedes makroskopischen Körpers, der sich weit unterhalb der Lichtgeschwindigkeit bewegt, haben sie sich in außerordentlichem Maß bewährt. Sie versagen aber auch — vollständig und unrettbar — bei den Geschwindigkeiten, die subatomare Teilchen erreichen, und auf den Skalen, auf denen die Quantenmechanik gilt. Eine Physikerin, die diese Grenzen nicht kennte, würde Newtons Gesetze dort anwenden, wo sie nicht gelten, und wäre systematisch im Irrtum, ohne zu wissen, warum. Dass Newtons Gesetze auf Quantenskalen falsch sind, mindert ihren Wert im Bereich, in dem sie funktionieren, nicht. Was ihren Wert mindern würde, wäre, sie außerhalb dieses Bereichs anzuwenden in dem Glauben, sie würden noch gelten.⁸

Dasselbe gilt für jedes Modell, das wir benutzen. Das Modell wirtschaftlichen Verhaltens, das in stabilen, wettbewerblich verfassten Märkten gut funktioniert, funktioniert nicht zwangsläufig unter Bedingungen extremer Knappheit oder gesellschaftlicher Erschütterung. Das Modell vom Charakter eines Freundes, das sein Verhalten in vertrauten Situationen genau vorhersagt, kann völlig versagen, wenn er Umständen begegnet, denen er noch nie ausgesetzt war. Das Selbstmodell, das die Person, die wir mit dreißig waren, richtig beschreibt, beschreibt vielleicht nicht die Person, die wir mit fünfzig sind. In jedem dieser Fälle kommt es nicht darauf an, dass das Modell irgendwann versagt — das ist unausweichlich —, sondern darauf, ob wir im Voraus wussten, dass es unter eben diesen Bedingungen versagen würde.

Die diagnostische Frage, die die Bewusste Betrachtung in allen Bereichen empfiehlt, hat hier ihre grundlegendste Gestalt: Was müsste wahr sein, damit dieses Modell falsch wäre? Lautet die Antwort: nichts — ist also jede mögliche Beobachtung mit dem Modell vereinbar —, dann sind die Grenzen des Modells unsichtbar, was bedeutet, dass es überall angewandt werden kann und irgendwann genau dort Schaden anrichten wird, wo es nicht mehr greift.

Die Karte und das Territorium

Der Philosoph Alfred Korzybski bemerkte, in einer Wendung, die zur leitenden Metapher dieser Reihe geworden ist, dass die Karte nicht das Territorium ist.⁹ Diese Beobachtung ist so schlicht, dass man sie als Binsenwahrheit auffassen und beiseitelegen kann. Sie verdient mehr anhaltende Aufmerksamkeit als das.

Die Karte ist nicht das Territorium in einem bestimmten und wichtigen Sinn: Die Karte ist eine selektive, vereinfachte, zweckgerichtete Darstellung eines Territoriums, das unabhängig von jeder Darstellung besteht. Das Territorium hat Merkmale, die die Karte nicht zeigt. Das Territorium hat Grenzen, die nicht die Ränder der Karte sind. Im Territorium geschehen Dinge, vor denen die Karte nicht warnt. Und — am wichtigsten — das Territorium ändert sich nicht, wenn die Karte sich ändert: Ein Kartograf, der eine Straße zeichnet, wo keine Straße ist, schafft damit keine Straße.

Die vier Kriterien, die dieser Artikel behandelt — Erklärungskraft, Vorhersagekraft, Verankerung in tieferen Prinzipien und gekannte Grenzen —, sind Weisen, danach zu fragen, wie gut eine bestimmte Karte ist. Eine Karte mit starker Erklärungskraft ordnet die Merkmale des Territoriums zu einem lesbaren Muster. Eine Karte mit starker Vorhersagekraft sagt uns, was wir finden werden, wenn wir an einen Ort gehen, an dem wir noch nicht waren. Eine in tieferen Prinzipien verankerte Karte leitet ihren Aufbau aus dem Wissen über das Gelände ab, nicht aus willkürlicher Konvention. Und eine Karte, die ihre Grenzen kennt, trägt eine Legende, die angibt, wo die Genauigkeit der Karte überprüft wurde und wo sie Extrapolation ist.

Keine Karte erfüllt alle vier Kriterien vollkommen. Die angemessene Antwort darauf ist nicht, die Karte aufzugeben — ohne sie können wir nicht navigieren —, sondern sie mit der Mischung aus Vertrauen und Demut zu halten, die ihrer tatsächlichen Qualität entspricht. Vertrauen, denn die Karte ist der beste verfügbare Leitfaden zum Territorium, und ohne Leitfaden zu handeln ist nicht eine Form von Freiheit, sondern eine Form von Blindheit. Demut, denn das Territorium ist immer größer, vielschichtiger und überraschender als die Karte.

Das ist der Anfang der Bewussten Betrachtung: nicht der Verzicht auf unsere Modelle, sondern die Praxis, sie ehrlich an den Maßstäben zu prüfen, die eine gute Karte von einer schlechten unterscheiden.

Weiterführende Lektüre

George E. P. Box und Norman R. Drapers Empirical Model-Building and Response Surfaces (1987) enthält Boxs berühmte Bemerkung, dass alle Modelle falsch, manche aber nützlich sind — vielleicht die knappste Fassung des Arguments, das dieser Artikel ausführlich entwickelt hat. Box war Statistiker, und das Buch ist technisch, aber die philosophischen Implikationen der Beobachtung reichen weit über die Statistik hinaus.

Peter Godfrey-Smiths Theory and Reality: An Introduction to the Philosophy of Science (2003) ist die ausgewogenste und zugänglichste Einführung in die philosophischen Fragen, die dieser Artikel berührt hat — was wissenschaftliche Theorien sind, wie sie sich zur Welt verhalten und was eine gute von einer schlechten Theorie unterscheidet. Godfrey-Smith ist außergewöhnlich klar in der Frage der Falsifizierbarkeit und ihrer Grenzen.

Daniel Kahnemans Schnelles Denken, langsames Denken (2011) liefert den kognitionswissenschaftlichen Hintergrund für die Frage, warum wir das Gefühl des Verstehens so bereitwillig mit echter Erklärungskraft verwechseln — was er die Illusion des Verstehens nennt und zu den folgenreichsten der von ihm beschriebenen kognitiven Verzerrungen rechnet.

Karl Poppers Logik der Forschung (1934) ist der grundlegende Text für das Argument zur Falsifizierbarkeit, das im zweiten Abschnitt dieses Artikels entwickelt wurde. Poppers Vorschlag, das Kennzeichen einer wissenschaftlichen Theorie sei ihre Falsifizierbarkeit — nicht ihre Bestätigbarkeit —, hat die Wissenschaftsphilosophie verändert und ist bis heute der Ausgangspunkt fast jeder nachfolgenden Diskussion.

Anmerkungen

¹ Der philosophische Begriff für diese Eigenschaft ist der kontrastive Charakter echter Erklärung: Eine Erklärung ist echt, wenn sie nicht nur die Frage „Warum ist das passiert?“ beantworten kann, sondern die Frage „Warum ist das passiert und nicht etwas anderes?“. Eine Erklärung, die beide Fragen mit gleicher Leichtigkeit beantwortet — die genauso gut funktionieren würde, wenn die Beobachtung anders ausgefallen wäre —, scheitert am Kontrastkriterium und erklärt damit in keinem tieferen Sinn. Der Psychologe Peter Wason dokumentierte die menschliche Neigung, eher bestätigende als widerlegende Evidenz zu suchen, in seiner berühmten 2-4-6-Aufgabe, die 1960 veröffentlicht wurde und zu den am häufigsten replizierten Befunden in der Erforschung des menschlichen Denkens zählt.

² Der Unterschied zwischen der Erklärungskraft und den Vorhersagegrenzen der Evolutionstheorie ist in der Philosophie der Biologie ausführlich diskutiert worden. Der Philosoph Elliott Sober hat in The Nature of Selection (1984) und in späteren Arbeiten argumentiert, die Evolutionstheorie sei am besten zu verstehen als eine Theorie, die erklärt, warum Anpassungen existieren, statt vorherzusagen, welche entstehen werden — eine Unterscheidung, die genau auf den in diesem Artikel entwickelten Kontrast zwischen rückblickender Erklärung und vorausschauender Vorhersage abbildet. Die scheinbare Schwäche der Theorie in der spezifischen Vorhersage ist kein Defekt, sondern eine Folge der Natur des Mechanismus, den sie beschreibt: Die natürliche Auslese wirkt auf Variation, die ihrerseits durch Prozesse hervorgebracht wird — genetische Mutation, Rekombination, Umweltstörungen —, die entweder grundsätzlich zufällig oder zu empfindlich gegenüber Anfangsbedingungen sind, um präzise Langfristprognosen zu erlauben. Das ist kein Versagen der Theorie. Es ist eine ehrliche Auskunft darüber, was der Mechanismus uns im Voraus sagen kann und was nicht.

³ Die Forderung, dass echte Vorhersagen falsifizierbar sein müssen, wird vor allem mit dem Philosophen Karl Popper verbunden, der sie als Abgrenzungskriterium zwischen wissenschaftlichen und nichtwissenschaftlichen Aussagen entwickelte. Poppers ursprünglicher Beweggrund war, Einsteins allgemeine Relativitätstheorie — die spezifische, präzise Vorhersagen machte, die sich im Prinzip prüfen und widerlegen ließen — von der Freudschen Psychoanalyse und der marxistischen Geschichtstheorie zu unterscheiden, die seiner Ansicht nach jede mögliche Beobachtung in sich aufnehmen konnten. Das Falsifizierbarkeitskriterium ist seit Poppers Vorschlag ausführlich diskutiert worden, und die meisten Wissenschaftsphilosophen halten es heute für notwendig, aber nicht hinreichend als Kriterium für wissenschaftlichen Status. Für diese Reihe genügt die schwächere Aussage: Vorhersagen, die nicht falsch sein können, liefern keine Evidenz für das Modell, das sie hervorbringt.

⁴ Kahneman beschreibt dies als den narrativen Trugschluss — die Neigung, im Nachhinein kohärente Geschichten über vergangene Ereignisse zu konstruieren, die ihnen einen Anschein von Unausweichlichkeit verleihen, den sie vor ihrem Eintreten nicht hatten. Das verwandte Phänomen, das er den Rückschaufehler nennt, ist die Neigung, nach Bekanntwerden eines Ausgangs zu glauben, wir hätten ihn im Voraus vorhergesagt. Beide Verzerrungen blähen unser Vertrauen in die Vorhersagekraft unserer Modelle systematisch auf, indem sie nachträglich Erklärungen in Vorhersagen verwandeln.

⁵ Das deutlichste historische Beispiel dafür, dass Deduktion aus ersten Prinzipien empirische Vorhersagen hervorbringt, ist James Clerk Maxwells Ableitung elektromagnetischer Strahlung in seinem Aufsatz A Dynamical Theory of the Electromagnetic Field von 1865. Ausgehend von seinen vier Gleichungen zur Beschreibung des Verhaltens elektrischer und magnetischer Felder — Gleichungen, die ihrerseits Jahrzehnte experimenteller Arbeit Faradays und anderer zusammenfassten — leitete Maxwell durch reine mathematische Schlussfolgerung ab, dass oszillierende elektrische und magnetische Felder sich als Welle durch den Raum ausbreiten würden und dass diese Welle sich mit Lichtgeschwindigkeit bewegen würde. Die Identität des Lichts als elektromagnetische Welle war daher keine experimentelle Entdeckung im üblichen Sinn; sie war eine deduktive Folge der Maxwell-Gleichungen. Heinrich Hertz wies die Existenz elektromagnetischer Wellen 1887 experimentell nach — zweiundzwanzig Jahre nach Maxwells Ableitung. Diese Abfolge — Deduktion zuerst, Beobachtung danach, wobei die Beobachtung bestätigt, was die Logik bereits festgestellt hatte — ist der Goldstandard wissenschaftlicher Verankerung, und gerade ihre Seltenheit macht jeden einzelnen Fall umso lehrreicher. Dieselbe logische Struktur findet sich in Einsteins allgemeiner Relativitätstheorie wieder, wo die Periheldrehung der Merkurbahn und die Ablenkung des Lichts um die Sonne deduktive Folgen der Feldgleichungen waren, durch Beobachtung bestätigt erst, nachdem die Mathematik bereits festgelegt hatte, was die Beobachtungen zeigen mussten.

⁶ Wilhelm von Ockham (ca. 1287–1347) war ein englischer Franziskanermönch und Philosoph, dessen Sparsamkeitsprinzip — dass Wesenheiten nicht über das Notwendige hinaus vermehrt werden sollen — in der Geschichte von Wissenschaft und Philosophie vielfach umformuliert worden ist. Die Fassung, die heute gemeinhin Ockhams Rasiermesser heißt, ist eine grobe Annäherung an sein ursprüngliches Argument, das in eine breitere nominalistische Philosophie eingebettet war. Das Rasiermesser ist eine Heuristik, kein logisches Prinzip: Einfachere Erklärungen sind nicht immer richtig. Aber wenn zwischen Modellen mit gleicher Vorhersagekraft zu wählen ist, ist das einfachere Modell — das, das weniger unabhängige Annahmen verlangt — in der Regel vorzuziehen, weil es eher korrekt auf neue Fälle verallgemeinert.

⁷ Die Anfälligkeit musterbasierter Modelle für Regimewechsel ist im Zusammenhang mit maschinellem Lernen ausführlich unter dem Stichwort Verteilungsverschiebung (engl. distribution shift) untersucht worden: das Versagen eines Modells, das auf Daten aus einer Verteilung trainiert wurde, sobald es auf Daten aus einer anderen Verteilung trifft. Die Finanzkrise von 2008 lieferte eine drastische Illustration aus der Praxis: Kreditrisikomodelle, die auf Daten aus der vorangegangenen Phase relativer Stabilität trainiert worden waren, unterschätzten unter Stressbedingungen systematisch die Korrelation der Ausfälle, weil die Daten aus der stabilen Phase keine Information darüber enthielten, wie das System unter den neuartigen Bedingungen eines gleichzeitigen Einbruchs über mehrere Anlageklassen hinweg verhalten würde. Die Modelle waren innerhalb ihrer Trainingsdomäne nicht falsch; sie waren falsch darüber, wo ihre Domäne endete. Genau das ist das Versagen, dem erklärende Verankerung vorbeugen soll: Ein Modell, das den Mechanismus versteht, durch den Kreditausfälle entstehen, kann im Prinzip darüber nachdenken, wie sich dieser Mechanismus unter neuartigen Stressbedingungen verhält, auch ohne solche Bedingungen unmittelbar beobachtet zu haben.

⁸ Das Versagen der Newtonschen Mechanik bei hohen Geschwindigkeiten war eines der zentralen Probleme, die Einstein 1905 zur Entwicklung der speziellen Relativitätstheorie führten. Die Merkurbahn um die Sonne zeigt eine kleine Periheldrehung — eine langsame Rotation der Bahnellipse —, die die Newtonsche Mechanik nicht vollständig erklären konnte. Der genaue Betrag dieser Drehung war eine der ersten quantitativen Vorhersagen, die die allgemeine Relativitätstheorie machte und die spätere Beobachtung bestätigte. Dass Newtons Gesetze eine Näherung sind — auf außerordentliche Genauigkeit innerhalb einer bestimmten Domäne, systematisch falsch außerhalb davon —, ist eine der deutlichsten verfügbaren Veranschaulichungen der Pointe dieses Abschnitts: Modelle können außerordentlich nützlich sein und gleichwohl, in einem gewissen Sinn, falsch.

⁹ Alfred Korzybski (1879–1950) war ein polnisch-amerikanischer Philosoph und Ingenieur, der die Unterscheidung von Karte und Territorium 1931 in einer Ansprache vor der American Mathematical Society einführte. Sein größeres Projekt, das er General Semantics nannte, war ein Versuch, das menschliche Denken zu verbessern, indem das Verhältnis zwischen Wörtern, Gedanken und Welt geklärt wird. Sein Hauptwerk, Science and Sanity (1933), ist anspruchsvoll, aber lohnend. Die Wendung „Die Karte ist nicht das Territorium“ ist seither in den allgemeinen Sprachgebrauch übergegangen, weit über den Zusammenhang von Korzybskis ursprünglichem Argument hinaus — was in einer Hinsicht bedauerlich ist, weil die volle philosophische Wucht in der Popularisierung oft verloren geht, und in anderer Hinsicht erfreulich: Sie ist zu einer der am weitesten geteilten erkenntnistheoretischen Mahnungen geworden, die im Umlauf sind.

Leave a reply

Your email address will not be published. Required fields are marked *