AI

Apple tar videokapningar till nästa nivå – direkt i din webbläsare

Apple har öppnat upp för att vem som helst med en Mac med Apple Silicon nu kan testa deras blixtsnabba AI-modell för videokapningar, FastVLM, direkt i webbläsaren. Modellen kan i realtid beskriva vad kameran ser – utan att skicka data vidare till molnet.

Published

8 månader ago

2 september 2025

Mimmo Wiestål Fischetti

Belgor / Shutterstock

Från bilder till video – nu i rekordfart

När Apple först presenterade FastVLM imponerade tekniken med sin höga hastighet och effektivitet. Genom att använda MLX, Apples egna ramverk för maskininlärning på Apple Silicon, kunde modellen leverera upp till 85 gånger snabbare videokapning än konkurrenterna, samtidigt som den var betydligt mindre i storlek, skriver 9to5.

Sedan dess har projektet utvecklats vidare och finns nu även på plattformen Hugging Face. Där kan du prova den lättare versionen, FastVLM-0.5B, direkt i webbläsaren – utan att behöva ladda ner något.

Så fungerar det i praktiken

Att komma igång är enkelt, men laddningstiden varierar beroende på datorns prestanda. På en MacBook Pro med M2 Pro och 16 GB RAM tog det bara ett par minuter innan modellen var igång.

När allt väl är laddat börjar AI:n genast beskriva det kameran fångar: personer, bakgrunder, ansiktsuttryck och föremål som förs in i bilden. På skärmen finns även förslag på frågor du kan ställa till modellen, till exempel:

Läs också: Nvidia passerade 4 000 miljarder dollar

”Beskriv vad du ser i en mening.”
”Vilken färg har min tröja?”
”Identifiera eventuell text i bilden.”
”Vilka känslor eller handlingar syns?”
”Vad håller jag i handen?”

Ett steg närmare praktiska tillämpningar

För den som vill experimentera ytterligare går det att mata in video via en virtuell kamera-app, vilket gör att modellen beskriver flera scener i realtid. Resultatet kan nästan bli överväldigande – men det visar också hur snabbt och exakt tekniken fungerar.

Det mest intressanta är att allt körs lokalt i webbläsaren, vilket innebär att inga data lämnar datorn. Dessutom kan systemet köras offline. Detta öppnar stora möjligheter för framtida användningsområden, inte minst inom bärbara enheter och hjälpmedel där låg latens och effektivitet är avgörande.

Fler varianter på gång

Demot på Hugging Face bygger på den mindre modellen med 0,5 miljarder parametrar. Men FastVLM finns också i större versioner med 1,5 respektive 7 miljarder parametrar, vilket kan ge ännu bättre prestanda – även om de tyngre modellerna knappast kommer att fungera direkt i en webbläsare.

Snabb info om Fast VLM

FastVLM är inte en traditionell videoredigerings- eller kapningsmodell (som i att klippa ihop videor). Istället handlar det om videokapning i betydelsen ”captioning”, alltså att modellen automatiskt sätter textbeskrivningar till vad som händer i en video eller framför kameran.

Läs också: Apple vill köpa F1-rättigheterna

Så när Apple pratar om videokapning med FastVLM menar de att modellen kan:

Ge korta eller mer detaljerade textbeskrivningar av vad som syns i bild

Beskriva scener i realtid

Identifiera objekt, färger, text och ansiktsuttryck

Läs också: Samsung fortsätter med galna priser

Läs också: Håll inne knappen – då avslöjar WhatsApp en dold funktion du inte visste fanns

Related Topics:Apple Fast VLM Video

Up Next

OpenAI lanserar föräldrakontroller i ChatGPT – ska skydda tonåringar online

Don't Miss

Kina skärper reglerna: AI-innehåll måste märkas på sociala medier

Mimmo Wiestål Fischetti

Mimmo Wiestål Fischetti är skribent på Dagens.se och Teksajten.se, där han bevakar nyheter, teknik och samhällsfrågor med fokus på det som påverkar svenska läsare i vardagen. Han har lång erfarenhet av digital publicering och har varit aktiv online sedan mitten av 1990-talet. Genom åren har han följt den snabba utvecklingen inom teknik, politik och digital kultur, med ett särskilt intresse för hur innovation och samhällsförändring hänger ihop. Med en tydlig och tillgänglig stil strävar han efter att göra komplexa frågor begripliga och relevanta för en bred publik. Se fullständig profil på Muck Rack

Teksajten.se

Apple tar videokapningar till nästa nivå – direkt i din webbläsare

AI

Apple tar videokapningar till nästa nivå – direkt i din webbläsare

Från bilder till video – nu i rekordfart

Så fungerar det i praktiken

Ett steg närmare praktiska tillämpningar

Fler varianter på gång

Snabb info om Fast VLM

Maxa spelupplevelsen i Windows 11 25H2: Den definitiva guiden till högre FPS

Nostalgi på ön: Så säkrar du Ben 10-paketet i Fortnite

Kinas kalldusch för Meta: Miljardaffären stoppas efter månader av utredning

Spotify tar upp kampen med träningsjättarna – lanserar guidade pass

Samsungs nya smarta glasögon läckta – tar upp kampen med Meta

Teksajten.se

Apple tar videokapningar till nästa nivå – direkt i din webbläsare

Från bilder till video – nu i rekordfart

Så fungerar det i praktiken

Ett steg närmare praktiska tillämpningar

Fler varianter på gång

Snabb info om Fast VLM

Relaterade inlägg:

Maxa spelupplevelsen i Windows 11 25H2: Den definitiva guiden till högre FPS

Nostalgi på ön: Så säkrar du Ben 10-paketet i Fortnite

Kinas kalldusch för Meta: Miljardaffären stoppas efter månader av utredning

Spotify tar upp kampen med träningsjättarna – lanserar guidade pass

Samsungs nya smarta glasögon läckta – tar upp kampen med Meta