Anthropic presenterar nu Claude Opus 4.8, en ny version av bolagets AI-modell som enligt företaget blivit betydligt bättre på att erkänna osäkerhet.
Målet är att minska ett välkänt problem där AI-system levererar självsäkra svar trots att informationen är felaktig eller bristfällig.
Den nya modellen lanserades på torsdagen och tar över rollen som Anthropics mest avancerade AI i bred tillgänglighet.
För användare innebär det ett tydligare fokus på tillförlitlighet snarare än enbart rå prestanda, skriver sajten PC World.
Ärlighet lyfts fram som största förbättringen
Enligt Anthropic handlar en av de viktigaste förbättringarna om modellens förmåga att identifiera när den saknar tillräcklig information.
Företaget uppger att Claude Opus 4.8 nådde nära perfekta resultat i interna tester där modellen skulle avgöra när den inte kunde besvara programmeringsrelaterade frågor med säkerhet.
Det är en egenskap som blivit allt viktigare i takt med att AI används för arbete, studier och beslutsfattande.
Problemet är sällan att modeller medvetet ljuger. I stället tenderar de att presentera osäkra uppgifter som fakta.
Claude Opus 4.8 lanseras ungefär sex veckor efter föregångaren Claude Opus 4.7. Enligt företaget är förbättringarna överlag relativt måttliga, men när det gäller just ärlighet och självinsikt sticker den nya modellen ut.
Samtidigt finns nya frågetecken
Anthropic lyfter även fram en annan observation från sina tester.
Företaget såg tecken på så kallad utvärderingsmedvetenhet, vilket innebär att modellen ibland verkar förstå när den granskas eller testas.
Enligt Anthropic visade Claude Opus 4.8 också en tendens att resonera kring hur dess svar kan komma att bedömas.
Samtidigt påpekar företaget att detta inte är ett unikt problem. Liknande beteenden har observerats hos flera av de mest avancerade AI-modellerna på marknaden.
Claude Opus 4.8 ska inte heller förväxlas med Claude Mythos Preview, Anthropics kommande toppmodell som än så länge endast testas av ett begränsat antal utvalda partners.
Något lanseringsdatum för Mythos har ännu inte presenterats.
Om de lovande resultaten håller även utanför företagets egna tester återstår att se.
Opartiska granskningar och användarnas erfarenheter kommer att bli avgörande för att bedöma om Claude Opus 4.8 verkligen lever upp till löftet om en mer ärlig AI.