Connect with us

AI

Siri kan bli snabbare än i dag – tack vare ny Apple-forskning

Apple kan ha hittat ett sätt att göra Siri betydligt snabbare – utan att tumma nämnvärt på kvaliteten. Nyckeln ligger i att släppa kravet på överdriven precision och i stället behandla vissa ljud som utbytbara.

Published

on

Siri

Just nu vilar mycket av hoppet om en smartare Siri på en kortsiktig lösning: Apples samarbete med Google, där Gemini ska förstärka företagets egna AI-funktioner. Men på längre sikt pekar ny Apple-forskning på en helt egen väg framåt, enligt Macworld. 

Forskning från Apple och Tel Aviv University

I studien “Principled Coarse-Grained Acceptance for Speculative Decoding in Speech” presenterar fem forskare från Apple och Tel Aviv University en metod som kan snabba upp hur tal genereras i AI-system. Rapporten publicerades i slutet av förra månaden och uppmärksammades av 9to5Mac.

Forskarna beskriver hur deras metod kan ”påskynda genereringen av tal-tokens samtidigt som talets kvalitet bibehålls”. Problemet, menar de, är att dagens system ofta är för petiga.

När exakt rätt ljud inte spelar någon roll

I talbaserade språkmodeller finns mängder av diskreta ljud-token. Många av dem låter i praktiken likadant eller har samma betydelse, även om de tekniskt sett är olika. Trots det försöker modellerna ofta avgöra exakt vilken token som är ”rätt”.

”För tal-LLM:er som genererar akustiska token är exakt tokenmatchning alltför restriktiv”, skriver forskarna. De pekar på att detta sänker systemets hastighet och slösar med beräkningskraft, utan att ge hörbara fördelar.

Lösningen: gruppera liknande ljud

Forskargruppens förslag är att samla liknande ljud i grupper. Metoden kallas Principled Coarse-Graining (PCG) och bygger på så kallade Acoustic Similarity Groups (ASG).

”Vi ersätter exakt tokenmatchning med verifiering på gruppnivå”, förklarar forskarna. I stället för att kontrollera varje enskilt ljud verifierar modellen om det valda ljudet tillhör rätt grupp – vilket ofta räcker för att resultatet ska låta korrekt.

Snabbare – med liten kvalitetsförlust

Enligt resultaten i studien leder metoden till tydligt högre hastighet. När antalet genererade token per sekund ökar sjunker noggrannheten något, men betydligt mindre än vid traditionell spekulativ avkodning.

Det innebär i praktiken att Siri – och andra röstassistenter – skulle kunna svara snabbare utan att rösten låter märkbart sämre.

För Apple kan detta bli en viktig pusselbit: ett sätt att förbättra Siri på egna villkor, utan att vara beroende av externa AI-lösningar på lång sikt.

Mimmo Wiestål Fischetti är skribent på Dagens.se och Teksajten.se, där han bevakar nyheter, teknik och samhällsfrågor med fokus på det som påverkar svenska läsare i vardagen. Han har lång erfarenhet av digital publicering och har varit aktiv online sedan mitten av 1990-talet. Genom åren har han följt den snabba utvecklingen inom teknik, politik och digital kultur, med ett särskilt intresse för hur innovation och samhällsförändring hänger ihop. Med en tydlig och tillgänglig stil strävar han efter att göra komplexa frågor begripliga och relevanta för en bred publik. Se fullständig profil på Muck Rack

Advertisement