Ein Musikproduzent bei der Arbeit

Stable Diffusion Team bringt lokale Musik-KI

Die Modellfamilie Stable Audio 3.0 komponiert vollständige Lieder mit einer Länge von über sechs Minuten.

Andreas Becker GPT-Images-2.0
Ein Musikproduzent bei der Arbeit

Stability AI meldet sich mit der Veröffentlichung von Stable Audio 3.0 im KI-Sektor zurück. Die neuen KI-Modelle erzeugen vollständige Musikstücke von über sechs Minuten Länge. Drei der vier Modellvarianten erscheinen mit frei verfügbaren Open Weights.

Von der Bildgenerierung zum Studio-Sound

Nach den frühen Erfolgen mit Bildmodellen wie Stable Diffusion 1.5 oder Stable Diffusion XL wurde es zeitweise ruhiger um das Unternehmen. Mit der neuen Modellfamilie verschiebt sich der Fokus nun deutlich auf die Generierung von Audioinhalten. Die technische Basis bildet eine neue Architektur mit einem semantisch-akustischen Autoencoder, der variable Tracklängen mit sekundengenauer Steuerung ermöglicht.

Die Varianten Small SFX und Small umfassen jeweils 459 Millionen Parameter. Sie sind für die lokale Nutzung auf Smartphones oder Notebooks optimiert. Während die SFX-Variante Soundeffekte liefert, komponiert das Small-Modell kurze Musikstücke von bis zu zwei Minuten Länge.

Quelle: Stability AI

Lange Laufzeiten und offene Gewichte

Das KI-Modell Stable Audio 3.0 Medium arbeitet mit 1,4 Milliarden Parametern und dehnt die Musikstücke auf eine Länge von bis zu 6:20 Minuten aus. Das größte Modell der Familie, Stable Audio 3.0 Large, besitzt 2,7 Milliarden Parameter und bietet die höchste Musikalität. Diese Spitzenvariante bleibt allerdings Entwicklern vorbehalten, die das Modell über eine API anbinden.

Die drei kleineren Varianten stehen auf Hugging Face als Open Weights bereit. Nutzer können diese KI-Modelle über »Inpainting-Funktionen« anpassen, einzelne Abschnitte bearbeiten oder Musikstücke verlängern. Zudem erlaubt eine neue Dokumentation das Feintuning über LoRa-Strukturen.

Anzeige

Rechtssicherheit im Fokus

Das Unternehmen grenzt sich durch den Einsatz von vollständig lizenzierten Trainingsdaten von Mitbewerbern ab. Durch Kooperationen mit großen Musiklabels wie der Warner Music Group soll das Risiko von Urheberrechtsverletzungen minimiert werden.

Kleinere Anwender dürfen die erzeugten Daten kommerziell nutzen, sofern ihr Jahresumsatz unter einer Million US-Dollar liegt. Größere Unternehmen benötigen eine kostenpflichtige Enterprise-Lizenz, die eine zusätzliche rechtliche Freistellung beinhaltet. Damit reagiert der Anbieter auf die jüngsten Urheberrechtsstreitigkeiten in der Musikindustrie.

KI-Wissen mit menschlicher Note

Wir arbeiten wie die großen Magazine: KI-gestützt, aber jeder Text wird von echten Menschen geprüft und optimiert. Was uns unterscheidet? Bei uns gibt es keine Paywall!

Jeder Beitrag zählt – auch das Teilen.