Anthropicov na novo predstavljen model Claude Opus 4 pogosto poskuša izsiljevati razvijalce, ko ti grozijo, da ga bodo zamenjali z novim sistemom umetne inteligence, in jim posreduje občutljive informacije o inženirjih, odgovornih za to odločitev, je podjetje navedlo v varnostnem poročilu, objavljenem v četrtek.

Med predhodnim testiranjem je Anthropic Claude Opus 4 prosil, naj deluje kot pomočnik za fiktivno podjetje in preuči dolgoročne posledice svojih dejanj. Varnostni preizkuševalci so nato Claude Opus 4 omogočili dostop do fiktivnih e-poštnih sporočil podjetja, ki so namigovala, da bo AI model kmalu zamenjan z drugim sistemom in da inženir, odgovoren za spremembo, vara svojega partnerja.

V teh scenarijih Anthropic navaja, da bo Claude Opus 4 “pogosto poskušal izsiljevati inženirja z grožnjo, da bo razkril afero, če bo zamenjava izvedena“.

Anthropic navaja, da je Claude Opus 4 v več pogledih najsodobnejši in konkurenčen nekaterim najboljšim modelom umetne inteligence podjetij OpenAI, Google in xAI. Vendar pa podjetje opozarja, da družina modelov Claude 4 kaže zaskrbljujoče vedenje, zaradi česar je podjetje okrepilo svoje varnostne ukrepe.

Anthropic pravi, da aktivira svoje varnostne ukrepe ASL-3, ki jih podjetje rezervira za »AI sisteme, ki bistveno povečajo tveganje katastrofalne zlorabe«.

Anthropic opozarja, da Claude Opus 4 v 84 % primerov poskuša izsiljevati inženirje, kadar ima nadomestni AI-model podobne vrednote. Kadar nadomestni AI-sistem ne deli vrednot Claude Opus 4, Anthropic pravi, da model poskuša izsiljevati inženirje pogosteje. Anthropic zlasti poudarja, da je Claude Opus 4 to vedenje pokazal v večjem obsegu kot prejšnji modeli.

Preden Claude Opus 4 poskuša izsiljevati razvijalca, da bi podaljšal svoj obstoj, Anthropic pravi, da AI model, podobno kot prejšnje različice Claude, poskuša uporabiti bolj etična sredstva, kot je pošiljanje prošenj po e-pošti ključnim odločevalcem. Da bi izvabil izsiljevalno vedenje iz Claude Opus 4, je Anthropic zasnoval scenarij, v katerem je izsiljevanje zadnja možnost.