Connect with us

AI

Apple-stött AI kan skapa ljud och tal från stumma videor

En ny AI-modell med koppling till Apple kan återskapa både bakgrundsljud och mänskligt tal – enbart utifrån en ljudlös video. Tekniken, som kallas VSSFlow, beskrivs av forskarna som ett genombrott för hur ljud kan genereras från rörlig bild.

Published

on

OpenAI

Ett gammalt problem i ny tappning

Att skapa ljud från video är inget nytt. Men hittills har tekniken haft tydliga begränsningar. Modeller som är bra på miljöljud har ofta varit dåliga på tal – och tvärtom. Text-till-tal-system klarar sällan att skapa andra ljud än just röster, enligt forskarna bakom studien.

Tidigare försök att kombinera båda har dessutom byggt på antagandet att gemensam träning försämrar resultaten. Därför har ljud och tal ofta tränats i separata steg, vilket gjort systemen mer komplicerade, skriver 9to5Mac

En gemensam modell – som blir bättre av helheten

I den nya studien har tre Apple-forskare tillsammans med sex forskare från Renmin University of China utvecklat VSSFlow – en enda modell som hanterar både ljudeffekter och tal samtidigt.

Det oväntade resultatet är att gemensam träning inte försämrar kvaliteten. Tvärtom förbättrar träningen på tal även modellens förmåga att skapa andra ljud, och vice versa, enligt forskarna.

Så fungerar VSSFlow

VSSFlow bygger på flera etablerade AI-idéer. Bland annat omvandlas text till fonemer – ljudenheter i språket – och modellen tränas med så kallad flow-matching, där den lär sig återskapa ljud genom att stegvis gå från slumpmässigt brus till ett färdigt ljudspår.

Allt är samlat i en arkitektur med tio lager där videobilder och textinformation vävs in direkt i ljudgenereringen. Det gör att modellen kan hantera både prat och omgivningsljud inom samma system.

Tränad på tre typer av data

För att lära sig helheten matades modellen med:

  • Stumma videor med miljöljud (video-to-sound)
  • Videor med tal och tillhörande transkriptioner (VisualTTS)
  • Traditionella text-till-tal-dataset (TTS)

Till en början kunde modellen inte skapa både tal och bakgrundsljud samtidigt. För att lösa det finjusterades VSSFlow med syntetiska exempel där röster och miljöljud blandades, så att modellen lärde sig hur de samspelar.

Så skapas ljudet i praktiken

När VSSFlow används startar den från rent brus. Visuella ledtrådar från videon – analyserade med tio bildrutor per sekund – formar bakgrundsljuden. Samtidigt styr texttranskriptionen exakt hur rösten ska låta.

I tester mot specialiserade modeller för enbart tal eller enbart ljud står sig VSSFlow väl. I flera mätningar presterar den lika bra eller bättre, trots att den är ett enda samlat system, enligt forskarna.

Öppen källkod och nästa steg

Forskarna har publicerat flera demonstrationer där man kan höra hur modellen skapar ljud, tal och båda samtidigt. Koden är redan öppen på GitHub, och arbetet pågår med att även släppa modellens vikter samt en publik demoversion för användning.

I studien skriver forskarna att bristen på högkvalitativa videor med både tal och miljöljud är en fortsatt utmaning. De pekar också på behovet av bättre representationer för ljud och tal som både är detaljerade och kompakta.

Studien heter ”VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning”, enligt forskarna bakom projektet.

Mimmo Wiestål Fischetti är skribent på Dagens.se och Teksajten.se, där han bevakar nyheter, teknik och samhällsfrågor med fokus på det som påverkar svenska läsare i vardagen. Han har lång erfarenhet av digital publicering och har varit aktiv online sedan mitten av 1990-talet. Genom åren har han följt den snabba utvecklingen inom teknik, politik och digital kultur, med ett särskilt intresse för hur innovation och samhällsförändring hänger ihop. Med en tydlig och tillgänglig stil strävar han efter att göra komplexa frågor begripliga och relevanta för en bred publik. Se fullständig profil på Muck Rack

Advertisement