AI
Apple-stött AI kan skapa ljud och tal från stumma videor
En ny AI-modell med koppling till Apple kan återskapa både bakgrundsljud och mänskligt tal – enbart utifrån en ljudlös video. Tekniken, som kallas VSSFlow, beskrivs av forskarna som ett genombrott för hur ljud kan genereras från rörlig bild.

JarTee / Shutterstuck
Ett gammalt problem i ny tappning
Att skapa ljud från video är inget nytt. Men hittills har tekniken haft tydliga begränsningar. Modeller som är bra på miljöljud har ofta varit dåliga på tal – och tvärtom. Text-till-tal-system klarar sällan att skapa andra ljud än just röster, enligt forskarna bakom studien.
Tidigare försök att kombinera båda har dessutom byggt på antagandet att gemensam träning försämrar resultaten. Därför har ljud och tal ofta tränats i separata steg, vilket gjort systemen mer komplicerade, skriver 9to5Mac.
En gemensam modell – som blir bättre av helheten
I den nya studien har tre Apple-forskare tillsammans med sex forskare från Renmin University of China utvecklat VSSFlow – en enda modell som hanterar både ljudeffekter och tal samtidigt.
Det oväntade resultatet är att gemensam träning inte försämrar kvaliteten. Tvärtom förbättrar träningen på tal även modellens förmåga att skapa andra ljud, och vice versa, enligt forskarna.
Läs också: Nvidia passerade 4 000 miljarder dollar
Så fungerar VSSFlow
VSSFlow bygger på flera etablerade AI-idéer. Bland annat omvandlas text till fonemer – ljudenheter i språket – och modellen tränas med så kallad flow-matching, där den lär sig återskapa ljud genom att stegvis gå från slumpmässigt brus till ett färdigt ljudspår.
Allt är samlat i en arkitektur med tio lager där videobilder och textinformation vävs in direkt i ljudgenereringen. Det gör att modellen kan hantera både prat och omgivningsljud inom samma system.
Tränad på tre typer av data
För att lära sig helheten matades modellen med:
- Stumma videor med miljöljud (video-to-sound)
- Videor med tal och tillhörande transkriptioner (VisualTTS)
- Traditionella text-till-tal-dataset (TTS)
Till en början kunde modellen inte skapa både tal och bakgrundsljud samtidigt. För att lösa det finjusterades VSSFlow med syntetiska exempel där röster och miljöljud blandades, så att modellen lärde sig hur de samspelar.
Läs också: Apple vill köpa F1-rättigheterna
Så skapas ljudet i praktiken
När VSSFlow används startar den från rent brus. Visuella ledtrådar från videon – analyserade med tio bildrutor per sekund – formar bakgrundsljuden. Samtidigt styr texttranskriptionen exakt hur rösten ska låta.
I tester mot specialiserade modeller för enbart tal eller enbart ljud står sig VSSFlow väl. I flera mätningar presterar den lika bra eller bättre, trots att den är ett enda samlat system, enligt forskarna.
Öppen källkod och nästa steg
Forskarna har publicerat flera demonstrationer där man kan höra hur modellen skapar ljud, tal och båda samtidigt. Koden är redan öppen på GitHub, och arbetet pågår med att även släppa modellens vikter samt en publik demoversion för användning.
I studien skriver forskarna att bristen på högkvalitativa videor med både tal och miljöljud är en fortsatt utmaning. De pekar också på behovet av bättre representationer för ljud och tal som både är detaljerade och kompakta.
Läs också: Samsung fortsätter med galna priser
Studien heter ”VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning”, enligt forskarna bakom projektet.
Läs också: Håll inne knappen – då avslöjar WhatsApp en dold funktion du inte visste fanns
