Bücher werden in den PC gezogen

Sauber, schlau, stark: So geht KI-Training heute

Comma v0.1 zeigt, was mit legalen Daten möglich ist. Ist das das Ende der Copyright-Diskussion in der KI?

Bücher werden in den PC gezogen
gpt-image-1 | All-AI.de

EINLEITUNG

Angesichts wachsender Kritik an der Verwendung urheberrechtlich geschützter Inhalte für das Training von KI-Modellen bringt EleutherAI eine alternative Lösung auf den Weg: das „Common Pile v0.1“. Das 8 Terabyte große Text-Dataset basiert ausschließlich auf lizenzierten und gemeinfreien Quellen. Die zentrale Frage lautet: Reicht ein solch ethischer Ansatz aus, um mit bestehenden, rechtlich umstrittenen Methoden mitzuhalten?

NEWS

Ein Dataset für transparente und ethische KI

Mit dem „Common Pile v0.1“ veröffentlicht EleutherAI ein großes Text-Dataset, das gezielt auf rechtliche Unbedenklichkeit und inhaltliche Qualität setzt. Die Texte stammen ausschließlich aus gemeinfreien oder offiziell lizenzierten Quellen. Ziel ist es, leistungsstarke Sprachmodelle zu trainieren, ohne dabei in rechtliche Grauzonen zu geraten.

Zusammenarbeit und Vielfalt der Inhalte

Das Dataset wurde in enger Kooperation mit Partnern wie Hugging Face und mehreren Hochschulen entwickelt. Es enthält Inhalte aus insgesamt 30 verschiedenen Quellen, darunter wissenschaftliche Arbeiten, Gesetzestexte, Bücher sowie transkribierte Audioinhalte. Für Letztere kam das Whisper-Modell zum Einsatz, das Audioaufnahmen automatisch in Text umwandelt.

Starke Modelle ohne urheberrechtlich geschützte Daten

Um die Leistungsfähigkeit des Datasets zu testen, wurden zwei Sprachmodelle entwickelt: Comma v0.1-1T und Comma v0.1-2T. Beide basieren auf 7 Milliarden Parametern und wurden mit jeweils einer bzw. zwei Billionen Tokens aus dem „Common Pile v0.1“ trainiert. Erste Tests zeigen: Die Modelle erzielen vergleichbare Ergebnisse zu KI-Systemen, die mit urheberrechtlich geschütztem Material trainiert wurden, etwa Metas LLaMA.

Antwort auf rechtliche Konflikte im KI-Bereich

Die Veröffentlichung ist auch als Reaktion auf die zunehmenden Klagen gegen KI-Unternehmen zu verstehen, denen vorgeworfen wird, geschütztes Material ohne Zustimmung verwendet zu haben. EleutherAI positioniert sich klar gegen diesen Trend und sieht in offenen, transparenten Datensätzen einen wichtigen Beitrag für die Zukunft der KI-Forschung.

Qualitätskontrolle durch sorgfältige Auswahl

Ein zentrales Anliegen bei der Erstellung des Datasets war die Qualitätssicherung. Mithilfe von Tools wie Dolma wurden die Inhalte auf Relevanz, sprachliche Güte und ethische Unbedenklichkeit geprüft. Quellen mit höherer Qualität wurden stärker gewichtet, um ein ausgewogenes und leistungsfähiges Trainingsmaterial bereitzustellen.

AUSBLICK

Ein Schritt in Richtung verantwortungsbewusster KI

Mit dem „Common Pile v0.1“ zeigt EleutherAI, dass leistungsfähige KI nicht zwangsläufig auf fragwürdigen Daten basieren muss. Die Kombination aus transparenter Kuratierung, technischer Sorgfalt und rechtlicher Sicherheit setzt ein starkes Zeichen für mehr Verantwortung in der KI-Entwicklung. Ob andere Anbieter diesem Beispiel folgen, bleibt abzuwarten – das Fundament für ethisches KI-Training ist jedenfalls gelegt.

Profilbild Caramba

UNSER ZIEL

Wir wollen hauptberuflich über Künstliche Intelligenz berichten und dabei immer besser werden. Du kannst uns auf dem Weg unterstützen!

Teile diesen Beitrag

Folge uns auf Social Media

Keine KI-News mehr verpassen und direkt kommentieren!

Unterstütze uns direkt

Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support!

KURZFASSUNG

  • EleutherAI stellt mit „Common Pile v0.1“ ein 8TB großes, legales Dataset vor, das nur lizenzierte und gemeinfreie Texte enthält.
  • Die Daten wurden sorgfältig kuratiert und stammen aus 30 Quellen, darunter Bücher, Gesetze und transkribierte Audioinhalte.
  • Zwei Modelle mit 7 Milliarden Parametern zeigen: Auch ohne geschütztes Material lassen sich leistungsfähige KIs bauen.
  • Das Projekt reagiert auf rechtliche Streitigkeiten und setzt neue Standards für ethisches KI-Training.

QUELLEN