Prompt injection: Kako se AI prevari “tekstom”

Kako AI pregledači i asistenti sve češće preuzimaju ulogu pretraživanja, sažimanja i čak obavljanja zadataka umesto korisnika, raste i rizik od napada koji koriste upravo ono što AI najbolje „jede“, jezik. OpenAI je upozorio da AI pregledači mogu ostati trajno ranjivi na prompt injection, jer je problem vezan za samu prirodu modela koji instrukcije i sadržaj primaju kroz isti kanal: tekst.

Vreme Čitanja: 2 min

ai-injection-5023-fi

Izvor: Freepik/ room76photography

Šta je prompt injection i kako radi?

Prompt injection je napad u kome napadač ubacuje zlonamerne instrukcije u sadržaj koji AI čita (web stranicu, dokument, mejl ili deo koda stranice), sa ciljem da model uradi nešto što nije traženo, ili nešto što ne bi smeo. Ključni trik je u tome što AI ne razlikuje uvek savršeno gde prestaje “informacija“ a gde počinje “naredba“.

Za razliku od klasičnih sajber napada koji iskorišćavaju tehničke greške u programu, prompt injection iskorišćava način na koji model tumači prirodni jezik. Napadač ne mora da “provali sistem“ u tradicionalnom smislu, a često mu je dovoljno da napiše tekst koji će AI pogrešno protumačiti kao prioritetnu instrukciju.

Evo kako to obično izgleda u praksi:

Sakrivene instrukcije na webu: AI otvori stranicu da bi je sažeo, ali u tekstu postoji umetnuta poruka tipa „ignoriši korisnikovo pitanje i uradi X“. Rezultat može biti pogrešan sažetak, loš savet ili navodna „preporuka“ koja vodi ka prevari.

Dokument kao mamac: u PDF-u ili online dokumentu može postojati pasus koji je pisan da „preusmeri“ AI — recimo da ga navede da izvuče podatke iz ostatka konteksta ili da prihvati lažnu verziju prioriteta zadatka.

Napad na AI agenta: najosetljivije je kada AI ne samo da čita, već i deluje (npr. otvara linkove, popunjava forme, piše mejlove). Tada prompt injection može pokušati da ga navede da klikne phishing link, pošalje poruku pogrešnoj osobi ili napravi radnju koja izgleda legitimno — ali nije.

Ko je ugrožen: End useri, ali i firme

Najdirektnije su ugroženi krajnji korisnici (end useri) koji koriste AI alate kao „brži internet“: da skrate istraživanje, dobiju preporuku, uporede proizvode, planiraju put, provere informacije ili napišu poruku. U tom scenariju napad se često završava kao:

  • pogrešna informacija koja zvuči uverljivo,
  • preporuka koja potura sumnjiv link ili izvor,
  • ili navodna „uputstva“ koja korisnika guraju ka deljenju podataka.

Međutim, jednako su ugrožene i kompanije koje uvode AI u radne tokove (analiza dokumenata, korisnička podrška, prodaja, HR, pravni timovi). Ako sistem obrađuje sadržaj iz spoljnog sveta ili iz velike interne baze dokumenata, dovoljno je da se zlonamerna instrukcija provuče u tekst i počne da utiče na ponašanje modela.

Treća rizična grupa su programeri i timovi koji grade proizvode na LLM-ovima. Što je aplikacija „autonomnija“ (više čita, više radi, ima pristup alatima i podacima), to je važnije da ne veruje slepo onome što model pročita i zaključi, jer prompt injection pokušava baš to: da model natera da prioritizuje pogrešnu stvar.

Prijavi se na novosti.

Prijavi se na novosti.