Microsofts VALL-E imiteert elke stem - drie seconden opname is genoeg
11-1-2023
Vertaling: machinaal vertaald
DALL-E wordt opgevolgd door VALL-E: Microsoft en OpenAI hebben een nieuwe kunstmatige intelligentie (AI) gemaakt die stemmen kan imiteren. Een stemopname van slechts drie seconden zou genoeg input moeten zijn voor de AI.
Vandaag weten we het: Wat foto's of video's laten zien, hoeft niet per se gebeurd te zijn. Sinds ChatGPT en DALL-E is het ook duidelijk dat een tekst niet per se uit de pen van een auteur hoeft te komen of een foto uit het penseel van een kunstenaar. Nu is de stem aan de beurt.
VALL-E is een AI-model dat Microsoft "Neural Codec Language" noemt. Hiermee kunnen stemprofielen worden aangemaakt en de bijbehorende stem worden geïmiteerd. Drie seconden stemopname zijn genoeg voor de AI om na te bootsen wat hij natuurlijk en met emotionele kleuring hoort. De stem kan vervolgens worden gebruikt om tekst voor te lezen. Het omgevingsgeluid van de opname blijft ook behouden. De nieuwe AI is ideaal voor tekst-naar-spraak functies, waarmee in het gunstigste geval een boek kan worden voorgelezen met de stem van de auteur.
Microsoft is zich ervan bewust dat de technologie ook potentieel misbruikt kan worden. Daarom zal een protocol in toekomstige toepassingen ervoor zorgen dat inhoud die door VALL-E is gemaakt als zodanig kan worden herkend.
De AI levert indrukwekkende resultaten met de voorbeelden die Microsoft presenteert. Voor de training werd 60.000 uur aan Engelstalige opnames verwerkt. Dit komt overeen met honderd keer de input van bestaande spraaksyntheses.
Je kunt voorbeelden van VALL-E beluisteren op GitHub https://valle-demo.github.io/. Naast de spraakuitvoer van VALL-E zijn ook de drie seconden durende invoeropnames (speaker prompt) beschikbaar. Je kunt ook beluisteren hoe de ingevoerde tekst klinkt als deze met de originele stem wordt uitgesproken (Ground Truth). En onder Baseline kun je horen hoe goed de bestaande tekst-naar-spraaksynthese in vergelijking klinkt. Of, wanneer en in welke vorm je VALL-E in de toekomst kunt gebruiken is nog onduidelijk.
Coverafbeelding: shutterstockMartin Jud
Senior Editor
martin.jud@digitecgalaxus.chDe dagelijkse kus van de muze stimuleert mijn creativiteit. Als ze me vergeet, probeer ik mijn creativiteit terug te winnen door te dromen, zodat het leven mijn dromen niet verslindt.