Gemini generiert nun komplette Songs in Sekunden, ausprobiert!
Google integriert das KI-Modell Lyria 3 in die eigene App. Nutzer erschaffen aus simplen Texten oder Fotos sofort fertige Musikstücke. Auch in deutscher Sprache.

Google integriert das KI-Modell Lyria 3 in seine Gemini-App und ermöglicht damit die direkte Erzeugung von Musik. Anwender erstellen ab sofort durch die Eingabe von Texten, Fotos oder Videos vollständige, 30-sekündige Audiotracks.
Multimodale Audio-Generierung
Das zugrundeliegende Modell Lyria 3 verarbeitet nicht mehr ausschließlich strukturierte Textbefehle. Die Software analysiert hochgeladene Fotografien oder kurze Videoclips und extrahiert daraus visuelle Merkmale. Daraus leitet der Algorithmus dann passende musikalische Parameter wie Tempo, Instrumentierung und Stimmung ab.
Diese multimodale Herangehensweise ersetzt die Notwendigkeit, komplexe musiktheoretische Vorgaben per Hand einzutippen.
Der Algorithmus liefert nach wenigen Sekunden Berechnungszeit einen fertigen, 30 Sekunden langen Audiotrack. Das System erzeugt die Musikstücke vollständig autonom, eigene Liedtexte oder Melodien sind nicht erforderlich.
Anzeige
Bedienung und Praxisbeispiele
Die Handhabung innerhalb der App ist simpel gestaltet. Anwender aktivieren die Funktion im Chatfenster über das "Tools"-Menü unter dem Punkt "Musik erstellen", wo sich auch der Bildgenerator befindet. Die generierte Audioqualität erreicht dabei laut ersten Tests ein überraschend hohes Niveau.
Für die Erstellung stehen diverse optionale Parameter zur Verfügung. Nutzer haben die Wahl aus 16 vorgefertigten Stil-Remixen und können zusätzlich eigene Textanweisungen, detaillierte Liedtexte sowie Fotos oder Videos als Ausgangsmaterial hochladen.
Quelle: Google
Die Kombination dieser Eingaben liefert präzise Ergebnisse. Fordert ein Nutzer beispielsweise als Grundstil einen "90er Rap" an und ergänzt den simplen Textbefehl, über künstliche Intelligenz zu rappen, liefert das System einen passenden, authentisch wirkenden Hip-Hop-Track inklusive Vocals.
rappe über "AI"
Auch komplexe und sehr spezifische Vorgaben setzt die Software um. Ein Befehl für einen orchestralen "World of Warcraft"-Soundtrack rund um das deutsche Twitch-Streamer-Projekt "Sauercrowd" im Hardcore-Modus führt zu einem stimmigen Epic-Musikstück. Die KI integriert das geforderte Wort "Sauercrowd" dabei fehlerfrei in den selbst generierten Liedtext und beachtet den Kontext.
Erstelle ein epischen World of Warcraft Soundtrack. Der Titel lautet "Sauercrowd" und das Wort muss auch im Song vorkommen. Kontext: Sauercrowd ist ein deutsches World of Warcraft Projekt wo ganz viele Twitch Streamer WoW im Hardcore Mode durchspielen. Erstelle entsprechend einen epischen Soundtrack mit Text.
Architektur und Schnittstellen
Technisch baut Lyria 3 auf den bisherigen Audio-Forschungsarbeiten von Google DeepMind auf. Die Architektur zielt darauf ab, typische Artefakte bei der KI-gestützten Klangerzeugung zu minimieren und eine konsistente Audioqualität über die gesamte Laufzeit zu halten.
Neben der Integration in die App öffnet der Konzern die Technologie für den professionellen Einsatz. Softwareentwickler greifen über die Gemini API und die Cloud-Plattform Vertex AI auf das Modell zu. Dies ermöglicht die Einbettung der Echtzeit-Musikgenerierung in externe Programme, beispielsweise für die dynamische Vertonung von Videospielen oder kommerziellen Medienproduktionen.
Die Verteilung der neuen Audio-Funktionen erfolgt ab sofort schrittweise an alle Nutzer der Gemini-App. Zu den genauen Preiskonditionen für die API-Nutzung durch externe Entwickler machte das Unternehmen noch keine Angaben.
