AI
Apple tar videokapningar till nästa nivå – direkt i din webbläsare
Apple har öppnat upp för att vem som helst med en Mac med Apple Silicon nu kan testa deras blixtsnabba AI-modell för videokapningar, FastVLM, direkt i webbläsaren. Modellen kan i realtid beskriva vad kameran ser – utan att skicka data vidare till molnet.

Belgor / Shutterstock
Från bilder till video – nu i rekordfart
När Apple först presenterade FastVLM imponerade tekniken med sin höga hastighet och effektivitet. Genom att använda MLX, Apples egna ramverk för maskininlärning på Apple Silicon, kunde modellen leverera upp till 85 gånger snabbare videokapning än konkurrenterna, samtidigt som den var betydligt mindre i storlek, skriver 9to5.
Sedan dess har projektet utvecklats vidare och finns nu även på plattformen Hugging Face. Där kan du prova den lättare versionen, FastVLM-0.5B, direkt i webbläsaren – utan att behöva ladda ner något.
Så fungerar det i praktiken
Att komma igång är enkelt, men laddningstiden varierar beroende på datorns prestanda. På en MacBook Pro med M2 Pro och 16 GB RAM tog det bara ett par minuter innan modellen var igång.
När allt väl är laddat börjar AI:n genast beskriva det kameran fångar: personer, bakgrunder, ansiktsuttryck och föremål som förs in i bilden. På skärmen finns även förslag på frågor du kan ställa till modellen, till exempel:
Läs också: Nvidia passerade 4 000 miljarder dollar
- ”Beskriv vad du ser i en mening.”
- ”Vilken färg har min tröja?”
- ”Identifiera eventuell text i bilden.”
- ”Vilka känslor eller handlingar syns?”
- ”Vad håller jag i handen?”
Ett steg närmare praktiska tillämpningar
För den som vill experimentera ytterligare går det att mata in video via en virtuell kamera-app, vilket gör att modellen beskriver flera scener i realtid. Resultatet kan nästan bli överväldigande – men det visar också hur snabbt och exakt tekniken fungerar.
Det mest intressanta är att allt körs lokalt i webbläsaren, vilket innebär att inga data lämnar datorn. Dessutom kan systemet köras offline. Detta öppnar stora möjligheter för framtida användningsområden, inte minst inom bärbara enheter och hjälpmedel där låg latens och effektivitet är avgörande.
Fler varianter på gång
Demot på Hugging Face bygger på den mindre modellen med 0,5 miljarder parametrar. Men FastVLM finns också i större versioner med 1,5 respektive 7 miljarder parametrar, vilket kan ge ännu bättre prestanda – även om de tyngre modellerna knappast kommer att fungera direkt i en webbläsare.
Snabb info om Fast VLM
FastVLM är inte en traditionell videoredigerings- eller kapningsmodell (som i att klippa ihop videor). Istället handlar det om videokapning i betydelsen ”captioning”, alltså att modellen automatiskt sätter textbeskrivningar till vad som händer i en video eller framför kameran.
Läs också: Apple vill köpa F1-rättigheterna
Så när Apple pratar om videokapning med FastVLM menar de att modellen kan:
Ge korta eller mer detaljerade textbeskrivningar av vad som syns i bild
Beskriva scener i realtid
Identifiera objekt, färger, text och ansiktsuttryck
Läs också: Samsung fortsätter med galna priser
Läs också: Håll inne knappen – då avslöjar WhatsApp en dold funktion du inte visste fanns