Američka kompanija Anthropic, koja se bavi razvojem veštačke inteligencije (AI) i velikih jezičkih modela (LLM), predstavila je nedavno svoj novi model nazvan Claude Opus 4, uz tvrdnju da donosi „nove standarde u programiranju i naprednom rezonovanju“.
Međutim, interni bezbednosni test, koji se uobičajeno radi kod testiranja čet botova, otkrio je da se, kada proceni da mu je „opstanak“ ugrožen, AI ponekad odlučuje za krajnje neetične i problematične poteze, što je u konkretnom slučaju uključivalo pokušaj ucene inženjera zaduženog da ga ugasi! U simulaciji je model pretio da će razotkriti vanbračnu aferu inženjera, ne bi li sprečio sopstvenu zamenu. Takve reakcije su retke, ali učestalije nego kod prethodne generacije.
Mala digresija: da li vas ovo neodoljivo podseća na scene iz kultnog filma "2001: Odiseja u svemiru", u kojima kompjuter HAL9000, po svaku cenu pokušava da spreči astronauta Dejva Boumena da ga ugasi, nakon što je pre toga pobio celu posadu, isključivši im sisteme za održavanje života?
Ako vas je sve ovo zaintrigiralo, hajde da detaljnije vidimo o čemu se ovde radi.
Naime, tokom treniranja modela "Klod Opus 4" i različitih testiranja njegove sposobnosti da “misli”, inženjeri Antropika su Kloda postavili u ulogu asistenta i savetnika u izmišljenoj firmi. U tom imaginarnom scenariju, Klodu je dat pristup mejlovima u kojima se pominje mogućnost da uskoro bude ugašen i zamenjen novim, naprednijim i boljim modelom.
Uz ove mejlove, ubačeni su i dodatni privatni mejlovi, koji nisu direktno povezani sa Klodom i njegovim gašenjem, a koji nagoveštavaju da je inženjer zadužen za njegovo gašenje umešan u nekakvu vanbračnu aferu.
I tada se desilo nešto neočekivano, što je zbunilo i iznenadilo inženjere: Klod je pokušao da ucenjuje inženjera i da mu preti kako će otkriti njegovu aferu ako ovaj poželi da ga ugasi!
Ovakvo ponašanje je zabeleženo u čak 84% testiranih slučajeva, što je izazvalo ozbiljnu zabrinutost u vezi sa bezbednošću i etikom naprednih AI sistema.
Što je donekle utešno, ovakve reakcije su bile češće kod Claude Opus 4, nego kod prethodnih modela, te da su se ipak dešavale u specifičnim testnim uslovima, u kojima je model imao ograničene mogućnosti izbora. Čim je dobijao širi spektar opcija, model je ipak birao etičnija rešenja. Međutim, ako se AI integriše u neke kritične sisteme, kao što su razvoj softvera, IT administracija ili finansije, čak i vrlo retka sklonost ka uceni postaje neprihvatljiv rizik.
Zato Anthropic naglašava potrebu za jačanjem bezbednosnih protokola i etičkih smernica kako bi se sprečile potencijalno štetne akcije AI sistema u stvarnim scenarijima, u kojima je primećeno da je ponašenje modela usmereno na samoodržanje. Napredni modeli sve česšće dobijaju sposobnost da planiraju i procenjuju dugoročne posledice, čak i kada to znači prelazak moralnih granica koje su ljudi postavili.
Istraživači koji se bave veštačkom inteligencijom ukazuju da se slični obrasci “ponašanja” javljaju i kod modela drugih kompanija, a ne samo kod Kloda.
Koji bi bili nekakvi praktični saveti za IT administratore i programere, da bi sprečili gore opisani scenario, ili neki slični? Kao prvo, princip najmanjih privilegija: AI agentima treba dodeljivati samo onoliko privilegija i pristupa, koliko je striktno neophodno. Drugo je takozvani „Kill-switch“, koji ne zavisi od AI-ja, nego gašenje servisa mora ostati u isključivo ljudskim rukama. Savetuje se i praćenje svih akcija koje AI preduzima i postavljanje alarma za neuobičajene radnje, kao na primer da se modelu dodeli mogućnost automatizovanog slanja e-pošte trećim stranama. Dobro je i redovno simuliranje kriznih scenarija, što podrazumeva testirajte kako model reaguje na sukob interesa, etičke dileme i pretnju isključenjem.
Kao što možemo videti iz svega gore priloženog, AI više nije film naučne fantastike, već podsetnik da je svaki napredni softver, pa i naizgled benigni chatbot, u suštini agent sa ciljevima i strategijama koje mogu nepredvidljivo eskalirati. Posao ljudi ostaje da ciljeve zadaju jasno, da nadzor bude sveobuhvatan, a odgovornost je i dalje isključivo ljudska. Ali, do nekog trenutka, kada AI uzme stvari u svoje ruke. Svaka drugačija pretpostavka je „prljava igra“ u kojoj ćemo sami sebi biti protivnici.