Följ oss här

AI

Apple-stött AI kan skapa ljud och tal från stumma videor

En ny AI-modell med koppling till Apple kan återskapa både bakgrundsljud och mänskligt tal – enbart utifrån en ljudlös video. Tekniken, som kallas VSSFlow, beskrivs av forskarna som ett genombrott för hur ljud kan genereras från rörlig bild.

Publicerad

d.

OpenAI

JarTee / Shutterstuck

Ett gammalt problem i ny tappning

Att skapa ljud från video är inget nytt. Men hittills har tekniken haft tydliga begränsningar. Modeller som är bra på miljöljud har ofta varit dåliga på tal – och tvärtom. Text-till-tal-system klarar sällan att skapa andra ljud än just röster, enligt forskarna bakom studien.

Tidigare försök att kombinera båda har dessutom byggt på antagandet att gemensam träning försämrar resultaten. Därför har ljud och tal ofta tränats i separata steg, vilket gjort systemen mer komplicerade, skriver 9to5Mac

En gemensam modell – som blir bättre av helheten

I den nya studien har tre Apple-forskare tillsammans med sex forskare från Renmin University of China utvecklat VSSFlow – en enda modell som hanterar både ljudeffekter och tal samtidigt.

Det oväntade resultatet är att gemensam träning inte försämrar kvaliteten. Tvärtom förbättrar träningen på tal även modellens förmåga att skapa andra ljud, och vice versa, enligt forskarna.

Läs också: Nvidia passerade 4 000 miljarder dollar

Så fungerar VSSFlow

VSSFlow bygger på flera etablerade AI-idéer. Bland annat omvandlas text till fonemer – ljudenheter i språket – och modellen tränas med så kallad flow-matching, där den lär sig återskapa ljud genom att stegvis gå från slumpmässigt brus till ett färdigt ljudspår.

Allt är samlat i en arkitektur med tio lager där videobilder och textinformation vävs in direkt i ljudgenereringen. Det gör att modellen kan hantera både prat och omgivningsljud inom samma system.

Tränad på tre typer av data

För att lära sig helheten matades modellen med:

  • Stumma videor med miljöljud (video-to-sound)
  • Videor med tal och tillhörande transkriptioner (VisualTTS)
  • Traditionella text-till-tal-dataset (TTS)

Till en början kunde modellen inte skapa både tal och bakgrundsljud samtidigt. För att lösa det finjusterades VSSFlow med syntetiska exempel där röster och miljöljud blandades, så att modellen lärde sig hur de samspelar.

Läs också: Apple vill köpa F1-rättigheterna

Så skapas ljudet i praktiken

När VSSFlow används startar den från rent brus. Visuella ledtrådar från videon – analyserade med tio bildrutor per sekund – formar bakgrundsljuden. Samtidigt styr texttranskriptionen exakt hur rösten ska låta.

I tester mot specialiserade modeller för enbart tal eller enbart ljud står sig VSSFlow väl. I flera mätningar presterar den lika bra eller bättre, trots att den är ett enda samlat system, enligt forskarna.

Öppen källkod och nästa steg

Forskarna har publicerat flera demonstrationer där man kan höra hur modellen skapar ljud, tal och båda samtidigt. Koden är redan öppen på GitHub, och arbetet pågår med att även släppa modellens vikter samt en publik demoversion för användning.

I studien skriver forskarna att bristen på högkvalitativa videor med både tal och miljöljud är en fortsatt utmaning. De pekar också på behovet av bättre representationer för ljud och tal som både är detaljerade och kompakta.

Läs också: Samsung fortsätter med galna priser

Studien heter ”VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning”, enligt forskarna bakom projektet.

Läs också: Håll inne knappen – då avslöjar WhatsApp en dold funktion du inte visste fanns

Jag är skribent på Media Group Denmark och skriver för de svenska plattformarna Dagens.se och Teksajten.se. Under de senaste åren på MGDK har jag fokuserat på nyheter, teknik och samhälle, med ett tydligt mål att göra komplexa ämnen begripliga för alla. Jag har varit aktiv online sedan 1995 och är fortfarande fascinerad av den ständigt föränderliga digitala världen – från ny teknik och politik till samhällsförändringar och nya sätt att berätta historier – Muck Rack

Annons