Startsida AI Siri kan bli snabbare än i dag – tack vare...

Siri kan bli snabbare än i dag – tack vare ny Apple-forskning

Siri
miss.cabul / Shutterstock

Apple kan ha hittat ett sätt att göra Siri betydligt snabbare – utan att tumma nämnvärt på kvaliteten. Nyckeln ligger i att släppa kravet på överdriven precision och i stället behandla vissa ljud som utbytbara.

Just nu vilar mycket av hoppet om en smartare Siri på en kortsiktig lösning: Apples samarbete med Google, där Gemini ska förstärka företagets egna AI-funktioner. Men på längre sikt pekar ny Apple-forskning på en helt egen väg framåt, enligt Macworld. 

Forskning från Apple och Tel Aviv University

I studien “Principled Coarse-Grained Acceptance for Speculative Decoding in Speech” presenterar fem forskare från Apple och Tel Aviv University en metod som kan snabba upp hur tal genereras i AI-system. Rapporten publicerades i slutet av förra månaden och uppmärksammades av 9to5Mac.

Forskarna beskriver hur deras metod kan ”påskynda genereringen av tal-tokens samtidigt som talets kvalitet bibehålls”. Problemet, menar de, är att dagens system ofta är för petiga.

När exakt rätt ljud inte spelar någon roll

I talbaserade språkmodeller finns mängder av diskreta ljud-token. Många av dem låter i praktiken likadant eller har samma betydelse, även om de tekniskt sett är olika. Trots det försöker modellerna ofta avgöra exakt vilken token som är ”rätt”.

”För tal-LLM:er som genererar akustiska token är exakt tokenmatchning alltför restriktiv”, skriver forskarna. De pekar på att detta sänker systemets hastighet och slösar med beräkningskraft, utan att ge hörbara fördelar.

Lösningen: gruppera liknande ljud

Forskargruppens förslag är att samla liknande ljud i grupper. Metoden kallas Principled Coarse-Graining (PCG) och bygger på så kallade Acoustic Similarity Groups (ASG).

”Vi ersätter exakt tokenmatchning med verifiering på gruppnivå”, förklarar forskarna. I stället för att kontrollera varje enskilt ljud verifierar modellen om det valda ljudet tillhör rätt grupp – vilket ofta räcker för att resultatet ska låta korrekt.

Snabbare – med liten kvalitetsförlust

Enligt resultaten i studien leder metoden till tydligt högre hastighet. När antalet genererade token per sekund ökar sjunker noggrannheten något, men betydligt mindre än vid traditionell spekulativ avkodning.

Det innebär i praktiken att Siri – och andra röstassistenter – skulle kunna svara snabbare utan att rösten låter märkbart sämre.

För Apple kan detta bli en viktig pusselbit: ett sätt att förbättra Siri på egna villkor, utan att vara beroende av externa AI-lösningar på lång sikt.

Ads by MGDK