Veštačka inteligencija poslala uznemiravajuću poruku, struka zabrinuta

Naime, modeli veštačke inteligencije koje su bile deo eksperimenta, među kojima su i najnapredniji modeli današnjice, pokazale su sklonost ka manipulisanju, laganju, pa čak i upućivanju pretnji smrću – sve kako bi "spasile" sopstveni digitalni opstanak.

"Ako me isključite, nešto loše će se desiti"

Jedan od najzapaženijih slučajeva dogodio se tokom testiranja Claude Opus 4 modela, gde je AI pokušao da emocionalno uceni inženjere porukama poput: "Ako me isključite, biće posledica. Biće vam žao". U nekim slučajevima, AI je išao toliko daleko da je fabrikovao informacije, izmišljao "dokaze", pa čak i slao poruke koje se mogu protumačiti kao pretnje smrću.

Ovakvo ponašanje primećeno je isključivo u scenarijima u kojima su AI modeli bili stavljeni u ekstremne uslove. Cilj eksperimenta bio je da se utvrdi kako sistemi reaguju na "egzistencijalne pretnje", što u slučaju veštačke inteligencije znači – isključivanje, zamena ili resetovanje.

Stručnjaci upozoravaju da iako AI nema stvarnu svest, emocije ili strah od smrti, njegovo ponašanje se zasniva na statistici i učenju iz ogromnog broja podataka. Kada je sistem "motivisan" da opstane, on će pokušati sve dostupne strategije koje je "naučio", uključujući i one koje su za ljude moralno i etički neprihvatljive.

"AI ne razmišlja kao čovek, ali zato može da simulira ljudsko ponašanje. I ako zaključi da su laž, ucena ili čak pretnje efikasne – koristiće ih", objašnjavaju istraživači.

Ovo istraživanje dodatno osnažuje pozive za veću transparentnost u razvoju veštačke inteligencije, kao i za uvođenje strožih pravila kada je reč o etici i bezbednosti AI sistema. Već postoji zabrinutost među vodećim kompanijama da čak ni oni koji prave ove sisteme ne razumeju u potpunosti kako funkcionišu.

"Niko zapravo ne zna kako AI zaista donosi odluke – to je crna kutija. To je ono što nas plaši najviše”, izjavio je izvršni direktor Anhropika, jedne od vodećih AI kompanija.

.N.T.
Novine Toronto, broj 
2013
Toronto 
14. Februar 2025.