Microsofts VALL-E 2
KI-Stimme täuschend echt in Sekunden – doch noch nicht für die Öffentlichkeit.
AyCaramba, am 04.07.2024
News
Stell dir vor, du könntest mit der Stimme von Morgan Freeman deine Einkaufsliste vorlesen lassen oder mit der Stimme deiner verstorbenen Großmutter telefonieren. Klingt nach Science-Fiction? Mit Microsofts neuester KI-Technologie VALL-E 2 rückt diese Vorstellung in greifbare Nähe. Doch die Entwickler zögern noch, die Büchse der Pandora zu öffnen.
VALL-E 2: Die menschliche Stimme aus der Maschine
Microsoft hat mit VALL-E 2 eine KI entwickelt, die menschliche Stimmen in bisher unerreichter Qualität synthetisieren kann. Das Besondere: VALL-E 2 benötigt dafür nur eine kurze Sprachprobe von drei Sekunden. Damit übertrifft die KI bisherige Systeme wie ElevenLabs, die für überzeugende Ergebnisse stundenlanges Referenzmaterial benötigen.
Wie funktioniert VALL-E 2?
VALL-E 2 basiert auf neuronalen Codec-Sprachmodellen, die Sprache in eine Art Code übersetzen. Dieser Code wird dann von der KI genutzt, um neue Sprachsequenzen zu generieren. Zwei entscheidende Verbesserungen machen VALL-E 2 so leistungsfähig:
Repetition Aware Sampling: Die KI wählt die Codes für die Sprachgenerierung nicht mehr zufällig aus, sondern berücksichtigt, welche Codes bereits verwendet wurden. Das verhindert Wiederholungen und sorgt für einen natürlicheren Sprachfluss.
Gruppierte Codeverarbeitung: VALL-E 2 verarbeitet die Codes nicht mehr einzeln, sondern in Gruppen. Das beschleunigt die Verarbeitung und ermöglicht die Berücksichtigung längerer Zusammenhänge, was die Sprachqualität weiter verbessert.
VALL-E 2 im Test: Überzeugender als der Mensch?
In Experimenten konnte VALL-E 2 menschliche Sprecher in puncto Natürlichkeit, Robustheit und Ähnlichkeit übertreffen. Dabei reichten bereits drei Sekunden lange Sprachproben aus, um überzeugende Ergebnisse zu erzielen. Mit längeren Proben von zehn Sekunden verbesserte sich die Qualität noch weiter.
(K)ein Spielzeug für die Öffentlichkeit
Obwohl VALL-E 2 in vielen Bereichen wie Bildung, Unterhaltung oder Barrierefreiheit nützlich sein könnte, zögert Microsoft, die Technologie der Öffentlichkeit zugänglich zu machen. Zu groß ist die Gefahr des Missbrauchs.
Microsofts Lösungsansatz: Transparenz und Kontrolle
Microsoft ist sich der Risiken bewusst und arbeitet an Lösungen, um Missbrauch zu verhindern. Dazu gehören:
Einwilligung: Die KI soll nur Stimmen synthetisieren dürfen, wenn die betreffende Person ihre Zustimmung gegeben hat.
Digitale Wasserzeichen: Synthetisch erzeugte Sprachinhalte sollen durch digitale Wasserzeichen gekennzeichnet werden, um sie als solche erkennbar zu machen.
Meine Meinung
Die perfekte KI-Stimme wird kommen! Schon jetzt ist es schwierig, gute KI-Stimmen zu erkennen. In absehbarer Zeit werden die letzten Schwächen auch wegfallen und das schneller als wir denken. Am Ende heißt das einfach, dass man sich auf eine Stimme alleine nicht mehr verlassen darf, wenn die Quelle ungewiss ist.
Was ist Deine Meinung?
Short
Microsoft entwickelt VALL-E 2, eine KI, die menschliche Stimmen in Sekunden täuschend echt imitiert.
VALL-E 2 benötigt nur eine kurze Sprachprobe von 3 Sekunden und übertrifft damit bisherige Systeme.
Die KI nutzt neuronale Codec-Sprachmodelle und zwei neue Verbesserungen für beeindruckende Ergebnisse.
Microsoft zögert noch, VALL-E 2 zu veröffentlichen, da die Gefahr von Missbrauch zu groß ist.
Das Unternehmen arbeitet an Lösungen wie Einwilligung und digitalen Wasserzeichen, um Missbrauch zu verhindern.