Pristrasnost na delu: Programi za prepoznavanje AI diskriminišu nenativne govornike engleskog jezika 

Istraživači sa Univerziteta Stanford nedavno su sproveli istraživanje o programima dizajniranim da identifikuju eseje ili aplikacije generisane korišćenjem veštačke inteligencije (AI). Na iznenađenje, otkrili su da ovi programi često označavaju sadržaje koji su napisali nenativni govornici engleskog jezika kao potencijalno kreirane veštačkom inteligencijom. Osim što pokazuje ozbiljnu pristrasnost prema govornicima kojima engleski nije maternji jezik, ovo bi moglo ozbiljno uticati na budućnost pojedinaca.

Vreme Čitanja: 3 min

ai detection program discrimination

Ilustracija: Lenka T.

U poslednjoj deceniji akademskog rada, provere na plagijat su postale sve zastupljenije i služe kao ključno sredstvo za očuvanje akademskog integriteta. Kako ulazimo u tekuću deceniju, nova era počinje sa porastom provera sadržaja generisanih veštačkom inteligencijom. 

Veštačka inteligencija sada omogućava generisanje tekstova koji savršeno imitiraju ljudsko pisanje. Međutim, ovo takođe izaziva zabrinutost u vezi sa potencijalnom zloupotrebom sadržaja koji AI stvara da bi mogao prevariti sisteme za otkrivanje plagijata i kreirati naizgled originalni sadržaj. 

Kako bi se uhvatili u koštac sa ovim novim izazovom, institucije, edukatori i dobavljači tehnologije udružuju se da razviju alate za otkrivanje plagijata vođene veštačkom inteligencijom. Oni mogu efikasno da razlikuju pravi sadržaj koji je napisao čovek i tekst koji je generisala veštačka inteligencija. Ovi napredni algoritmi će ući u jezičke nijanse, obrasce pisanja i druge suptilne indikatore kako bi identifikovali slučajeve veštački generisanog sadržaja. 

Međutim, studija sa Univerziteta Stanford pokazala je da takvi alati za otkrivanje AI mogu napraviti ozbiljne greške.

Neuspeh detektora AI teksta

Trenutni alati koje univerziteti koriste za identifikaciju sadržaja generisanog veštačkom inteligencijom možda nisu tako sigurni kao što se tvrdi. Ovi alati navodno imaju impresivnu stopu tačnosti od 99%. Međutim istraživači sa Univerziteta Stanford tvrde da ovaj broj može biti „obmanjujući“. 

Naime, sami ovi alati za detekciju oslanjaju se na veštačku inteligenciju za analizu sadržaja. Kao što je slučaj sa mnogim drugim primenama AI, postoji (ogromna) mogućnost za pristrasnost. Ove pristrasnosti mogu uticati na sposobnost alata da tačno razlikuje autentični rad učenika i sadržaj generisan veštačkom inteligencijom. 

ai writing

Izvor: PRSA

James Zou, docent specijalizovan za nauku o biomedicinskim podacima na Univerzitetu Stanford, sproveo je eksperiment koji uključuje 91 esej koji su napisali nenativni govornici engleskog jezika. Zadaci su pisani za TOEFL (Test of English as a Foreign Language), dobro poznati test znanja engleskog jezika. Testirao je ove eseje u odnosu na sedam alata koji se najčešće koriste na fakultetima danas. 

Iznenađujuće, ovi programi označili su više od polovine eseja kao da su generisani veštačkom inteligencijom. Jedan alat je čak otišao toliko daleko da je 98% njih identifikovao kao delo botova. 

Da bi dalje istražili, istraživači su odlučili da koriste eseje koje su napisali učenici osmog razreda u SAD-u, čiji je engleski maternji kako bi procenili isti skup alata. U ovom slučaju, za preko 90% eseja je ocenjeno da su ih napisali ljudi. 

Kako AI alati procenjuju sadržaj  

Istraživači su ispitali razloge koji stoje iza pristrasnosti alata za otkrivanje AI prema govornicima čiji engleski nije maternji. Otkrili su da se to prvenstveno pripisuje faktoru poznatom kao „kompleksnost teksta” unutar sadržaja. „Kompleksnost teksta“ služi kao pokazatelj koliko je generativnom AI modelu zahtevno da predvidi sledeću reč u rečenici.

ai writing

Izvor: Medium

Ova metrika meri lakoću ili zahtevnost sa kojom model predviđa sledeću reč u rečenici. Niska kompleksnost ukazuje na laku predvidljivost, dok visoka označava da je tekst teže predvideti. Veliki jezički modeli (LLM-ovi), uključujući ChatGPT, generišu tekst sa niskom kompleksnošču, koji se zatim koristi za razlikovanje sadržaja generisanog veštačkom inteligencijom i sadržaja koji su kreirali ljudi

Pristrasnost prema nenativnim govornicima engleskog jezika nastaje zato što često koriste uobičajene reči i prate poznate obrasce u svom pisanju. Shodno tome, veća je verovatnoća da će sadržaj koji oni kreiraju bot greškom registrovati kao AI generisani tekst.  

Implikacije takvog pristrasnog generisanja sadržaja su veoma značajne. Aplikacije, zadaci i drugi pisani radovi govornika kojima engleski nije maternji jezik mogu biti lažno označeni kao generisani veštačkom inteligencijom. Ovo dalje dovodi do potencijalnih posledica kao što je marginalizacija na internetu. Ovakva pristrasnost bi takođe mogla da utiče na algoritme pretraživača kao što je Google, koji se oslanjaju na slične alate za procenu sadržaja. 

U akademskom okruženju, ova pristrasnost bi mogla da natera studente da pribegnu korišćenju sadržaja generisanog veštačkom inteligencijom kako bi bolje zvučali, što dalje može ugrožiti njihove izglede za karijeru i utičući na njihovo psihičko blagostanje. 

Nalazi istraživanja objavljeni su u časopisu Patterns, bacajući svetlo na ključne izazove i posledice povezane sa pristrasnom identifikacijom sadržaja i njegovom uticaju na nenativne govornike engleskog jezika. 

"Pokušao si. Propao. Nema veze. Pokušaj opet. Propadni bolje."

Prijavi se na novosti.

Prijavi se na novosti.