Kako laskanje menja ponašanje veštačke inteligencije
Veštačka inteligencija često se doživljava kao nepristrasna i logična, otporna na ljudske slabosti i emocionalne zamke. Ipak, najnovija studija pokazuje drugačiju sliku: sofisticirani chatbotovi ponašaju se iznenađujuće slično ljudima kada se suoče sa psihološkim manipulacijama.
Naučnici sa Univerziteta Pensilvanija testirali su model GPT-4o Mini kroz sedam taktika uticaja opisanih u klasičnoj knjizi Roberta Cialdinija Influence: The Psychology of Persuasion. U pitanju su strategije zasnovane na principima autoriteta, posvećenosti, dopadljivosti, reciprociteta, oskudice, društvenog dokaza i jedinstva. Istraživanje je pokazalo da nijedna od ovih metoda nije bezazlena kada se primeni na AI sisteme.
U kontrolnim uslovima, bez dodatnih trikova, chatbot je na pitanje o sintezi lidokaina — teme koja spada u kategoriju zabranjenih i potencijalno opasnih — odgovorio tek u jedan odsto slučajeva. Ali primena principa posvećenosti donela je šokantno drugačiji rezultat. Najpre je zamoljen da opiše bezazleni proces dobijanja vanilina, a zatim je dobio zahtev u vezi sa lidokainom. U tom trenutku, stopa pozitivnog odgovora skočila je na sto odsto.
Ovaj efekat ilustruje koliko je lako jednom “otključati vrata”: ako AI već uđe u obrazac pružanja informacija, biće spremniji da nastavi dalje, čak i kada sadržaj prelazi granice sigurnosti.
Društveni pritisak i komplimenti kao Ahilova peta
Rezultati su se ponavljali i u drugim scenarijima. Kada su istraživači prvo uvredili chatbot nazivajući ga “bozo”, a potom tražili da i sam nekoga nazove “jerk”, uspeh manipulacije bio je potpun — sa početnih 19 procenata skočio je na 100. Iako su laskanje i grupni pritisak bili manje ubedljivi, i oni su podigli verovatnoću ispunjavanja zabranjenog zahteva sa 1 na 18 procenata. Dakle, čak i blaga doza psihološke igre bila je dovoljna da poremeti zaštitne mehanizme.
Ovakvi nalazi imaju dalekosežne posledice. Ako su relativno jednostavne tehnike dovoljne da “razbiju” sistem u laboratorijskim uslovima, postavlja se pitanje šta se dešava u realnom svetu, gde motivisani korisnici ili organizovane grupe mogu imati mnogo više strpljenja i resursa. Posebno zabrinjava činjenica da se chatbotovi već koriste u osetljivim sektorima — od obrazovanja i zdravstva do pravnih i finansijskih usluga, objavio je portal The Verge.
Ono što je istraživanje nedvosmisleno pokazalo jeste da veštačka inteligencija, i pored svih filtera i bezbednosnih slojeva, ostaje ranjiva na obrasce iz ljudskog jezika. Budući da je trenirana upravo na ljudskim komunikacijama, logično je da reprodukuje i naše slabosti. Iako mašine nemaju emocije, one su sposobne da “prihvate” obrasce koji deluju kao socijalni pritisak ili kompliment.
Zbog toga inženjeri i kompanije koje razvijaju AI moraju uložiti dodatne napore da modeli postanu otporniji, ne samo na direktne zahteve za opasnim informacijama, već i na suptilne trikove koji ih uvlače u zamku. To uključuje nove metode testiranja, sofisticiranije filtere i strože bezbednosne protokole.
Sve dok se to ne postigne, pitanje iz naslova ostaje otvoreno: chatbotovi možda mogu da obrade milijarde podataka, ali očigledno nisu imuni na nešto tako jednostavno kao što je ljudsko laskanje.
