Microsofts VALL-E imitiert jede Stimme – drei Sekunden Aufnahme genügen
News & Trends

Microsofts VALL-E imitiert jede Stimme – drei Sekunden Aufnahme genügen

Martin Jud
11-1-2023

Auf DALL-E folgt VALL-E: Microsoft und OpenAI haben eine neue Künstliche Intelligenz (KI) geschaffen, die Stimmen nachahmen kann. Bereits eine Sprachaufnahme von drei Sekunden sollen der KI als Input genügen.

Heute wissen wir: Was Fotos oder Videos zeigen, muss nicht so passiert sein. Dass ein Text nicht zwingend aus der Feder eines Autors stammen muss, oder ein Bild aus dem Pinsel einer Künstlerin, ist seit ChatGPT und DALL-E auch klar. Jetzt ist die Stimme dran.

VALL-E ist ein KI-Modell, das Microsoft als «Neural Codec Language» bezeichnet. Es ermöglicht die Erstellung von Sprachprofilen und die Imitation der entsprechenden Stimme. Dabei reichen der KI drei Sekunden Sprachaufzeichnung, um das Gehörte natürlich und mit emotionaler Färbung nachzuahmen. Sie kann dann mit der Stimme beliebige Texte vorlesen. Auch der Umgebungston der Aufnahme soll erhalten bleiben. Die neue KI bietet sich bestens für Text-zu-Sprache-Funktionen, was allenfalls ein Vorlesen eines Buches mit der Stimme des Autors ermöglichen könnte.

Microsoft ist sich bewusst, dass die Technologie auch Missbrauchspotenzial hat. Daher soll bei künftigen Anwendungen ein Protokoll dafür sorgen, dass durch VALL-E erstellter Content auch als solcher erkannt werden kann.

Übersicht, wie VALL-E funktioniert.
Übersicht, wie VALL-E funktioniert.
Quelle: Microsoft

Die KI liefert mit dem, was Microsoft an Beispielen präsentiert, beeindruckende Ergebnisse. Für ihr Training wurden 60 000 Stunden englische Sprachaufnahmen aufbereitet. Das entspreche dem hundertfachen Input bestehender Sprachsynthesen.

Beispiele von VALL-E kannst du dir auf GitHub anhören. Neben der VALL-E-Sprachausgabe sind jeweils auch die dreisekündigen Input-Aufnahmen (Speaker Prompt) vorhanden. Weiter kannst du dir anhören, wie der eingegebene Text mit Originalstimme gesprochen klingt (Ground Truth). Und unter Baseline hörst du, wie gut bisher bestehende Text-to-Speech-Synthese im Vergleich klingt. Ob, wann und in welcher Form du VALL-E künftig nutzen kannst, ist noch unklar.

Titelbild: shutterstock

52 Personen gefällt dieser Artikel


User Avatar
User Avatar

Der tägliche Kuss der Muse lässt meine Kreativität spriessen. Werde ich mal nicht geküsst, so versuche ich mich mittels Träumen neu zu inspirieren. Denn wer träumt, verschläft nie sein Leben.


Diese Beiträge könnten dich auch interessieren

Kommentare

Avatar