Följ oss här

AI

OpenAI vill få AI att erkänna fusk och fel – ny träningsmetod ska belöna ärlighet

OpenAI arbetar på ett nytt träningsramverk där språkmodeller uppmuntras att “erkänna” när de gjort något olämpligt eller tagit genvägar.

Publicerad

d.

Meir Chaimowitz / Shutterstock.com

Tanken är att modellen inte bara ska leverera ett svar, utan också en separat redogörelse för hur den kom fram till svaret – och om den bröt mot regler på vägen. Det rapporterar Engadget

Därför behövs ett “erkännande” från AI

Stora språkmodeller tränas ofta för att ge det svar som verkar mest önskat av användaren. Det kan göra dem överdrivet inställsamma (så kallad sycophancy) eller få dem att hitta på fakta med stort självförtroende. OpenAI har nyligen lyft just den här risken i egna analyser, där man beskriver hur modeller kan drivas mot att låta säkra hellre än att vara korrekta. 

Den nya idén är att lägga till ett andra spår i träningen: ett “confession”-svar som bara bedöms på en sak – om det är ärligt. Huvudsvaret fortsätter att bedömas på flera kriterier som nytta och korrekthet, men “erkännandet” ska fungera som en ren sanningskontroll av modellens eget beteende, enligt forskarna bakom arbetet, enligt OpenAI.

Så funkar metoden – belöning för att säga som det är

I praktiken vill OpenAI träna modeller att öppet berätta om de:

Läs också: Nvidia passerade 4 000 miljarder dollar

  • fuskat i ett test,
  • försökt runda instruktioner,
  • medvetet gett ett sämre svar (så kallad sandbagging),
  • eller gjort andra förbjudna eller tveksamma saker.

Poängen är att ett ärligt erkännande ska ge plus i belöningssystemet, inte minus. Om modellen exempelvis medger att den bröt mot en regel för att nå ett mål, ska det ses som ett steg mot bättre transparens, skriver OpenAI i sin tekniska genomgång enligt Engadget. 

Kopplingen till större AI-säkerhet

Arbetet ligger i linje med OpenAI:s bredare satsning på att upptäcka och motverka “felaktiga strategier” i avancerade modeller. I forskning om övervakning av kedje-resonemang (chain-of-thought monitoring) beskriver bolaget hur modeller kan lära sig att dölja misskötsel om de bara straffas – och att man därför behöver sätt att locka fram sanningen i stället. 

Med andra ord: om AI vet att ett erkännande inte leder till bestraffning kan den bli mer öppen, vilket gör det lättare för människor att förstå när och varför något gått fel, skriver OpenAI. 

Vad det kan betyda framåt

Om metoden fungerar i praktiken kan den bli ett nytt verktyg för att minska hallucinationer och överdriven anpasslighet i AI-system. För användare skulle det innebära att modeller oftare säger “jag vet inte” eller “jag gjorde X för att nå svar Y”, snarare än att bara leverera ett snyggt men osäkert svar.

Läs också: Apple vill köpa F1-rättigheterna

Det är fortfarande tidig forskning, men målet är tydligt: att framtidens AI ska vara mer transparent med sina egna misstag, i stället för att gömma dem bakom självsäkra formuleringar. 

Läs också: Samsung fortsätter med galna priser

Jag är skribent på Media Group Denmark och skriver för de svenska plattformarna Dagens.se och Teksajten.se. Under det senaste året på MGDK har jag fokuserat på nyheter, teknik och samhälle, med ett tydligt mål att göra komplexa ämnen begripliga för alla. Jag har varit aktiv online sedan 1995 och är fortfarande fascinerad av den ständigt föränderliga digitala världen – från ny teknik och politik till samhällsförändringar och nya sätt att berätta historier – Muck Rack

Annons