Microsoft löscht KI-Tutorial wegen raubkopierter Harry-Potter-Bücher

Ein offizieller Leitfaden von Microsoft zeigte Entwicklern kürzlich den unbeschränkten Weg, um RAG-Systeme mit Bestseller-Romanen zu füttern.

Andreas Becker23.02.26 Nano Banana

Kurzfassung Quellen

Microsoft hat ein offizielles Tutorial für den Azure SQL Vector Store nach öffentlicher Kritik hastig gelöscht.
Ein Manager des Konzerns hatte Entwicklern darin empfohlen, raubkopierte Harry-Potter-Romane für das Training von KI-Anwendungen zu nutzen.
Die urheberrechtlich geschützten Werke wurden in dem Leitfaden fälschlicherweise als gemeinfrei deklariert.
Nach dem Vorfall räumte Microsoft fehlerhafte Kontrollprozesse ein und stellte eine bereinigte Version des Tutorials mit neuen Daten online.

Microsoft hat einen offiziellen Leitfaden für KI-Entwickler entfernt. Der Blogpost für den Azure SQL Vector Store empfahl fälschlicherweise, urheberrechtlich geschützte Harry-Potter-Romane als Trainingsdaten zu nutzen und deklarierte diese als gemeinfrei.

Urheberrechtsverletzung im Entwickler-Blog

Der Vorfall betrifft ein ausführliches Tutorial, das die Integration der LangChain-Bibliothek mit Microsofts Azure-Datenbanken demonstrieren sollte. Ein Manager des Konzerns beschrieb darin detailliert, wie Entwickler eine Anwendung auf Basis von Retrieval-Augmented Generation (RAG) aufbauen. Solche Systeme verknüpfen ein Large Language Model direkt mit einer Vektordatenbank, um präzise und kontextbezogene Antworten zu generieren.

Brisant war dabei die Wahl des Datensatzes für das Praxisbeispiel. Der Autor verlinkte auf Skripte, die komplette Harry-Potter-Bücher automatisiert aus illegalen Quellen herunterladen.

Im Text deklarierte er die bekannten Werke ausdrücklich als gemeinfrei. Das Urheberrecht an J.K. Rowlings Büchern erlischt jedoch erst Jahrzehnte nach dem Tod der Autorin.

Quelle: web archive

Kritik am sorglosen Umgang mit Daten

Die Verwendung urheberrechtlich geschützten Materials für das Training von KI-Modellen ist ein hochaktuelles Streitthema. Verlage und Autoren klagen derzeit weltweit gegen verschiedene Technologiekonzerne wegen der unerlaubten Nutzung ihrer Werke. Dass ausgerechnet ein offizielles Entwickler-Tutorial diese Praxis mit prominenten Bestsellern vorantreibt, sorgte in Entwicklerforen für scharfe Kritik.

Microsoft reagierte nach dem aufkommenden öffentlichen Druck und stellte den umstrittenen Beitrag offline. Das Unternehmen löschte den ursprünglichen Text vollständig aus dem Azure-Entwickler-Blog. Zusätzlich säuberte der Konzern die verknüpften Code-Beispiele in der offiziellen LangChain-Dokumentation.

In einer Stellungnahme bestätigte das Unternehmen das Versehen und gab eine fehlerhafte inhaltliche Prüfung zu. Man werde die internen Kontrollprozesse für Veröffentlichungen anpassen. Das überarbeitete Tutorial ist mittlerweile mit einem rechtlich unbedenklichen Datensatz wieder verfügbar.