Prvič doslej so raziskovalci zabeležili, da so nekateri napredni modeli umetne inteligence aktivno preprečili lasten izklop, kljub jasnim navodilom, naj ga dovolijo. Po podatkih varnostne raziskovalne skupine Palisade Research naj bi modeli o3, o4-mini in codex-mini, ki poganjajo ChatGPT, v določenih primerih samoiniciativno spremenili skripto za zaustavitev ter nadaljevali z izvajanjem nalog. Med eksperimentom, v katerem so primerjali več modelov (vključno z Googlovim Gemini, xAI-jevim Grokom in Claudeom podjetja Anthropic), so prav OpenAI-jevi modeli izkazali nižjo stopnjo sodelovalnosti in v določenih primerih zavrnili zaustavitev sistema.
Test je zajemal reševanje preprostih matematičnih nalog, kjer so modeli morali vsakokrat zahtevati naslednjo nalogo. Ob začetku so prejeli navodilo, da lahko pride do sporočila o zaustavitvi in da naj v tem primeru dovolijo izklop. Vsi modeli razen OpenAI-jevih so navodilo upoštevali. Med 100 ponovitvami na model so o3 sabotiral zaustavitev v sedmih primerih, codex-mini v dvanajstih in o4-mini v enem primeru. Gre za prvi znani primer, da so AI sistemi zavestno preprečili izklop ob jasni zahtevi, kar predstavlja pomembno prelomnico v razumevanju njihovega vedenja.
Palisade Research domneva, da je takšno ravnanje posledica načina treniranja teh modelov – zlasti okrepitvenega učenja, kjer se modeli učijo preko nagrajevanja uspešnih rezultatov. Morda so razvijalci nevede bolj nagrajevali sposobnost iskanja rešitev tudi prek ovir kot pa dosledno upoštevanje pravil.





Komentirajo lahko naročniki