Följ oss här

AI

Apple tar videokapningar till nästa nivå – direkt i din webbläsare

Apple har öppnat upp för att vem som helst med en Mac med Apple Silicon nu kan testa deras blixtsnabba AI-modell för videokapningar, FastVLM, direkt i webbläsaren. Modellen kan i realtid beskriva vad kameran ser – utan att skicka data vidare till molnet.

Publicerad

d.

Macbook Apple

Belgor / Shutterstock

Från bilder till video – nu i rekordfart

När Apple först presenterade FastVLM imponerade tekniken med sin höga hastighet och effektivitet. Genom att använda MLX, Apples egna ramverk för maskininlärning på Apple Silicon, kunde modellen leverera upp till 85 gånger snabbare videokapning än konkurrenterna, samtidigt som den var betydligt mindre i storlek, skriver 9to5

Sedan dess har projektet utvecklats vidare och finns nu även på plattformen Hugging Face. Där kan du prova den lättare versionen, FastVLM-0.5B, direkt i webbläsaren – utan att behöva ladda ner något.

Så fungerar det i praktiken

Att komma igång är enkelt, men laddningstiden varierar beroende på datorns prestanda. På en MacBook Pro med M2 Pro och 16 GB RAM tog det bara ett par minuter innan modellen var igång.

När allt väl är laddat börjar AI:n genast beskriva det kameran fångar: personer, bakgrunder, ansiktsuttryck och föremål som förs in i bilden. På skärmen finns även förslag på frågor du kan ställa till modellen, till exempel:

Läs också: Nvidia passerade 4 000 miljarder dollar

  • ”Beskriv vad du ser i en mening.”
  • ”Vilken färg har min tröja?”
  • ”Identifiera eventuell text i bilden.”
  • ”Vilka känslor eller handlingar syns?”
  • ”Vad håller jag i handen?”

Ett steg närmare praktiska tillämpningar

För den som vill experimentera ytterligare går det att mata in video via en virtuell kamera-app, vilket gör att modellen beskriver flera scener i realtid. Resultatet kan nästan bli överväldigande – men det visar också hur snabbt och exakt tekniken fungerar.

Det mest intressanta är att allt körs lokalt i webbläsaren, vilket innebär att inga data lämnar datorn. Dessutom kan systemet köras offline. Detta öppnar stora möjligheter för framtida användningsområden, inte minst inom bärbara enheter och hjälpmedel där låg latens och effektivitet är avgörande.

Fler varianter på gång

Demot på Hugging Face bygger på den mindre modellen med 0,5 miljarder parametrar. Men FastVLM finns också i större versioner med 1,5 respektive 7 miljarder parametrar, vilket kan ge ännu bättre prestanda – även om de tyngre modellerna knappast kommer att fungera direkt i en webbläsare.

Snabb info om Fast VLM

FastVLM är inte en traditionell videoredigerings- eller kapningsmodell (som i att klippa ihop videor). Istället handlar det om videokapning i betydelsen ”captioning”, alltså att modellen automatiskt sätter textbeskrivningar till vad som händer i en video eller framför kameran.

Läs också: Apple vill köpa F1-rättigheterna

Så när Apple pratar om videokapning med FastVLM menar de att modellen kan:

Ge korta eller mer detaljerade textbeskrivningar av vad som syns i bild

Beskriva scener i realtid

Identifiera objekt, färger, text och ansiktsuttryck

Läs också: Samsung fortsätter med galna priser

Läs också: Håll inne knappen – då avslöjar WhatsApp en dold funktion du inte visste fanns

Jag är skribent på Media Group Denmark och skriver för de svenska plattformarna Dagens.se och Teksajten.se. Under det senaste året på MGDK har jag fokuserat på nyheter, teknik och samhälle, med ett tydligt mål att göra komplexa ämnen begripliga för alla. Jag har varit aktiv online sedan 1995 och är fortfarande fascinerad av den ständigt föränderliga digitala världen – från ny teknik och politik till samhällsförändringar och nya sätt att berätta historier – Muck Rack

Annons