Istraživanje je vodio Oxford Internet Institute, a lekari su pripremili 10 scenarija koji pokrivaju širok spektar situacija: od blažih tegoba nalik prehladi do hitnih stanja kod kojih je pravovremena reakcija presudna. U eksperimentu je učestvovalo 1.298 osoba. Zadatak je bio da, na osnovu opisa simptoma, procene najverovatnije stanje i izaberu sledeći korak – na primer, da li treba kontaktirati lekara, potražiti hitnu pomoć ili pratiti simptome kod kuće.
Najzanimljiviji deo nalaza je razlika između toga kako AI prolazi na testu „u laboratoriji“ i kako se ponaša u realnoj upotrebi. Kada su veliki jezički modeli ocenjivani bez učešća ljudi, pokazali su vrlo visoku tačnost u prepoznavanju relevantnog stanja (oko 95%). Međutim, čak i tada su bili znatno slabiji u davanju ispravne preporuke šta uraditi dalje (oko 56%). Drugim rečima, čak i kada model „pogodi“ šta bi moglo da bude, sledeći korak – onaj koji u praksi najviše znači da često nije dovoljno pouzdan, piše BBC.
Kada su, međutim, u računicu ušli stvarni korisnici koji postavljaju pitanja i tumače odgovore, rezultati su ostali skromni: ljudi su tačno prepoznavali stanje u oko trećini slučajeva i birali adekvatnu akciju u manje od polovine slučajeva, bez jasne prednosti u odnosu na one koji su koristili uobičajene izvore, poput pretrage ili zvaničnih stranica NHS.
Autori objašnjavaju da je problem u „dvosmernoj grešci“: korisnici često ne daju ključne informacije (ili ih daju neprecizno), dok AI može ponuditi odgovor koji zvuči ubedljivo, ali je mešavina tačnih smernica i rizičnih procena. Zaključak nije da AI nema mesto u zdravstvu, već da u formi samostalnog „digitalnog saveta“ trenutno ne donosi bolji ishod za prosečnog korisnika.


