Das Bild, dass die Hersteller von ihren LLMs (Large Language Models, die Technologie hinter ChatGPT, Claude etc.) zeichnen, ist das einer Antwortmaschine – das Wissen der Menschheit nur einen Prompt entfernt. Dabei sind sie im besten Fall ein Simulacrum einer solchen Maschine, die Antworten bloße Binsenweisheiten eines unsterblichen Idioten. Tritt man einen Schritt zurück, ergibt sich vielmehr das Gegenteil: Anstatt universellen Zugang zu Wissen zu gewähren, zerstören LLMs unser Wissen und kulturelles Erbe. Und damit meine ich nicht, dass Elon Musk Grok nutzen will, die Geschichte umzuschreiben1, oder die unweigerlichen Fehler (aka “Halluzinationen”) in den Antworten. Ich meine das sehr wörtlich.
Wie funktioniert Bücherverbrennung, in einer digitalen Welt?
Um ein Buch auszuradieren, gibt es zwei unterschiedliche Ansätze: Der offensichtlichere ist es, den Zugang zu dem Buch zu erschweren bzw. unmöglich zu machen. Das Buch wird aus Bibliotheken verbannt, aus dem Handel genommen und existierende Kopien werden aufgespürt und vernichtet. Das ist in einer analogen Welt, in der Bücher auf Papier gedruckt vorliegen, schon schwer genug. In einer digitalen Welt, in der Exemplare des Buchs auf weltweit verteilten Computern existieren können und mit einem Knopfdruck kopiert werden können, ist es umso schwieriger.
Krieg der Sterne (1977): Han hat zuerst geschossen.
Ein alternativer – und möglicherweise sogar wirksamerer – Ansatz ist es, das Buch bedeutungslos zu machen: Ein Roman ist mehr als eine Aneinanderreihung von Worten, ein Film mehr als eine Aneinanderreihung von Bildern. Sie erzählen eine Geschichte. Mit Wendungen und Entscheidungen der Charaktere. Anstatt nun alle Kopien der Geschichte zu finden und zu vernichten, kann man sie auch umschreiben und zu jedem Wendepunkt eine Alternative bieten, zu jeder Entscheidung das Gegenteil. Wenn diese Varianten der Geschichte verbreitet werden, beginnen sie mit dem Original zu verschwimmen. Und irgendwann weiß niemand mehr mit Bestimmtheit: Wer schoss zuerst – Han oder Greedo?
Das Perfide daran ist: Selbst wenn irgendwann eine Kopie des Originals auftaucht, macht das den Schaden nicht einfach ungeschehen. Ohne Konsens, was die kanonische Fassung ist, gibt es keine richtige Version und damit ist die Geschichte vollständig ausgelöscht.
Das liegt daran, dass Information nicht nur aus dem besteht, was gesagt oder geschrieben wurde, sondern genauso aus dem, was nicht gesagt wurde. 1 Bit an Information (ohne diesen kleinen Abstecher in die Informationstheorie geht es dann doch nicht) entspricht einer Entscheidung und wenn plötzlich beide Varianten gleichberechtigt nebeneinander stehen, gibt es keine Entscheidung und das Bit wurde gelöscht. Fügen wir dem Korpus menschlicher Texte wahllos Inhalte hinzu, wird der Informationsgehalt unintuitiverweise nicht größer, sondern kleiner. Erst die Unterscheidung, ob ein Text lesenswert ist oder nicht, macht ihn zu einer Information. Davor ist er nur Rauschen in der Menge aller möglichen Texte.
Was hat das mit LLMs zu tun?
Mit dem Aufkommen von Large Language Models ab 2018 gelang ein technologischer Durchbruch im Umgang mit Texten. Anstatt auf der Ebene von Bits und Bytes zu arbeiten, hatten wir plötzlich ein Werkzeug, mit dem auf Textebene gearbeitet werden konnte. Das war eine enorme Leistung und ein folgenreicher Paradigmenwechsel. Und darin liegt auch der Grund, warum wir oft den Eindruck haben, dass LLMs sinnvolles Wissen schaffen: Sie brechen grundlegend mit unseren Erwartungen, wie wir mit Text interagieren:
Jedes Buch, das nie geschrieben wurde.
Wir sind es gewohnt, dass ein Autor seine Geschichte Zeichen für Zeichen in eine Tastatur eingibt. Mit jedem Tastenanschlag schränkt er dabei die Anzahl der möglichen Geschichten ein, bis er sich schließlich mit dem letzten Punkt auf eine einzige festgelegt hat. Genauso gut könnte er aber auch in einer hypothetischen Bibliothek, die alle möglichen Geschichten enthält, nach seiner Geschichte suchen. Die Schöpfungshöhe, wenn er mit einem Handgriff den richtigen Band aus dem unendlichen Regal nimmt, wäre dieselbe, als hätte er sie Wort für Wort geschrieben. Intuitiv fühlt sich das zwar falsch an, letztlich ist es aber lediglich unmöglich.
Das ist der Moment, an dem LLMs ins Spiel kommen. Denn in gewisser Weise gleichen sie mehr der unendlichen Bibliothek als einer Tastatur: Die Innovation durch LLMs besteht darin, dass sie die Möglichkeit bieten, direkt mit Sprache statt mit Bytes zu interagieren. Ein LLM generiert keine zufällige Aneinanderreihung von Buchstaben, sondern syntaktisch korrekten und sogar semantisch plausiblen Text. Am Ende ist es aber doch nur ein zufälliger Text aus der Menge aller möglichen Texte – gewichtet nach dem stochastischen Modell, das dem LLM zugrunde liegt.
Und während das beeindruckend ist, ist das auch der Maßstab, an dem wir den Informationsgehalt von KI-generierten Texten messen müssen.
Wie viel Information steckt in KI-generierten Texten?
Der Informationsgehalt KI-generierter Texte liegt nicht darin, dass sie formal korrekte deutsche Texte sind. Grammatik und Vokabular sind zwar ein Wissensschatz, der aber sowohl beim Autor als auch beim Leser vorausgesetzt werden kann, damit Kommunikation überhaupt erst möglich ist.
Die einzigen Informationsquellen, die in den Text einfließen, sind der Prompt und der anschließende Auswahlprozess. Die obere Schranke für den Informationsgehalt ergibt sich somit aus dem Prompt und der Anzahl der zur Auswahl stehenden Texte. Die Menge der Trainingsdaten, die für das LLM herangezogen wurden, spielt hier keine Rolle, da es sich dabei nicht um neue Informationen handelt. Vorhandene Informationen wahllos zu rekombinieren, erzeugt keine neuen Informationen, sondern fügt dem Textkorpus lediglich Rauschen hinzu. Das bedeutet natürlich nicht, dass Zusammenfassungen keinen Mehrwert liefern können. Dazu müssen die Informationen aber bewusst ausgewählt und korrekt wiedergegeben werden.
Wenn der Prompt also nicht mindestens so lang ist wie der generierte Text oder abertausende Varianten generiert wurden, ist die Informationsdichte von KI-generierten Texten minimal. Das heißt allerdings nicht, dass ein beliebiger KI-generierter Text keine für den Leser neuen Informationen enthalten kann. Mir geht es bei diesem Argument um die Auswirkungen von KI-generierten Texten und nur, weil eine Aussage im Hinblick auf den zugrunde liegenden Textkorpus trivial ist, gilt das nicht automatisch auch für alle Leser.
Fazit
Kombinieren wir diese Gedanken, zeigt sich eine versteckte Gefahr beim Einsatz generativer KI: Mit jedem KI-generierten Text, der ohne als solcher erkennbar zu sein in den Korpus menschlicher Literatur Einzug findet, verschwimmt unser kulturelles Erbe ein bisschen mehr. Gerade weil es sich nicht um distinkt neue Schöpfungen handelt und sie sich unauffällig in die Lücken zwischen den bestehenden Werken einfügen, verlieren diese an Einzigartigkeit und gehen in der Beliebigkeit unter. Der Schaden, den die Glaubwürdigkeit von Texten, Bildern und Videos durch fahrlässige sowie absichtliche Omipräsenz von Fehlinformationen nimmt, ist dabei noch gar nicht berücksichtigt.
Schon heute sind große Teile des Internets mit KI generiert2, aber auch KI-generierte Bücher mischen sich zunehmend zwischen die von Menschen geschriebenen Werke. Wenn es uns nicht gelingt, die Verbreitung von KI-generierten Inhalten zu kontrollieren, könnte uns in wenigen Jahrzehnten ein Wissensverlust ereilen, der die Bücherverluste in der Spätantike in den Schatten stellt.
Das Problem kann dabei weder rein politisch (z. B. eine Kennzeichnungspflicht für KI-Inhalte3) noch durch individuelles Verhalten (z. B. den Boykott von KI-Inhalten) gelöst werden. Vielmehr brauchen wir ein gesellschaftliches Umdenken: Einen Konsens darüber, dass mögliche individuelle und kurzfristige Gewinne durch KI den gesellschaftlichen Schaden durch den unverantwortlichen Einsatz von KI nicht wert sind.
Elon Musk will das Wissen der Menschheit mit KI nach seinen Vorstellungen umschreiben.
Schätzungen über den Anteil KI-generierter Inhalte im Internet schwanken zwischen 10% und 70%. Da die Glaubwürdigkeit dieser Zahlen genauso stark schwankt, verzichte ich imAugenblick auf die Angabe von Quellen. Konsens besteht allerdings darin, dass es viel ist und schnell mehr wird. ↩︎
KI-Verordnung, Art. 50, Abs. 2: “Anbieter von KI‑Systemen, einschließlich KI‑Systemen mit allgemeinem Verwendungszweck, die synthetische Audio-, Bild-, Video- oder Textinhalte erzeugen, stellen sicher, dass die Ausgaben des KI‑Systems in einem maschinenlesbaren Format gekennzeichnet und als künstlich erzeugt oder manipuliert erkennbar sind.” ↩︎