Läuft KI wegen Inzucht in eine Mauer?
Das Internet ist leergelesen und synthetische Trainingsdaten verursachen Fehler, die zukünftige KI-Modelle unbrauchbar machen könnten.

Künstliche Intelligenz steuert auf eine unsichtbare Mauer zu, die den Fortschritt der letzten Jahre massiv ausbremsen könnte. Während neue Modelle an Geschwindigkeit gewinnen, droht durch den Mangel an frischen Trainingsdaten und die Nutzung synthetischer Inhalte eine qualitative Stagnation – Experten warnen vor einer digitalen Inzucht.
Das Ende des freien Internets
Die großen Tech-Konzerne haben das öffentlich zugängliche Internet effektiv leergelesen. Hochwertige Texte aus Büchern, Artikeln und Foren sind bereits in die Trainingssätze von ChatGPT, Claude und Co. eingeflossen. Es gibt kaum noch unverbrauchte Quellen, die menschliche Nuancen und echtes Weltwissen liefern.
Dieser Mangel zwingt Unternehmen zu drastischen Maßnahmen. OpenAI transkribierte beispielsweise über eine Million Stunden YouTube-Videos, um den Datenhunger seiner Systeme zu stillen. Doch auch diese Ressourcen sind endlich. Ohne neuen Input droht die Entwicklungskurve abzuflachen, da reine Rechenpower allein keine Intelligenzsprünge mehr garantiert.
Anzeige
Wenn KI von KI lernt
Die Industrie setzt als Lösung zunehmend auf synthetische Daten. Dabei erzeugen aktuelle KI-Modelle Texte und Bilder, die dann wiederum als Trainingsmaterial für die nächste Generation dienen. Dieser rekursive Prozess birgt jedoch eine gefährliche Falle: den „Habsburg-KI“-Effekt.
Ähnlich wie bei der Inzucht in der historischen Adelsfamilie, bei der sich genetische Defekte über Generationen verstärkten, multiplizieren sich Fehler in KI-Systemen. Trainiert ein Modell auf den Ausgaben seines Vorgängers, verliert es den Bezug zur Realität. Die Varianz der Antworten nimmt ab, während Halluzinationen und verzerrende Artefakte zunehmen. Das Modell wirkt zwar kohärent, verliert aber an inhaltlicher Tiefe und Präzision.
Die Gefahr des Modellkollapses
Wissenschaftliche Untersuchungen stützen diese Sorge massiv. Studien zeigen, dass Modelle, die überwiegend mit synthetischen Daten trainiert werden, nach wenigen Generationen unbrauchbar werden. Forscher bezeichnen dies als „Model Collapse“. Die Algorithmen vergessen unwahrscheinliche Ereignisse und geben nur noch den statistischen Durchschnitt wieder.
Das Ergebnis ist ein Einheitsbrei ohne kreative Spitzen. Zwar gibt es Ansätze, synthetische Daten durch strenge Filterung nutzbar zu machen, doch das Risiko bleibt hoch. Ohne einen stetigen Zufluss echter, von Menschen erzeugter Daten, könnte die nächste Generation der künstlichen Intelligenz zwar blitzschnell antworten, dabei aber weniger verstehen als ihre Vorgänger.