Evaluacija obuhvata 44 zanimanja iz devet industrija koje najviše doprinose američkom BDP-u: od prava, finansija i inženjeringa, do medicine, marketinga i korisničke podrške. Modeli su testirani na ukupno 1.320 zadataka, od kojih je 220 javno dostupno. Svaki zadatak osmišljen je i ocenjen od strane stručnjaka sa prosečno 14 godina iskustva u svojim oblastima. Reč je o realnim poslovnim primerima, pisanju ugovora, izradi planova nege, analizama podataka, tabelama, dijagramima i prezentacijama — što GDPval čini prvim testom koji meri ekonomsku upotrebljivost AI modela.
OpenAI meri ekonomski učinak veštačke inteligencije
Naziv „GDPval“ potiče od pojma bruto domaći proizvod (BDP), jer je evaluacija koncipirana tako da obuhvati zanimanja i sektore koji najviše doprinose ekonomiji. OpenAI ovim pristupom pokušava da precizno izmeri ekonomski učinak veštačke inteligencije – koliko može da uštedi vreme, poveća produktivnost i generiše novu vrednost u poslovima koje danas obavljaju ljudi, objavila je kompanija OpenAI,
Za razliku od ranijih testova poput MMLU-a ili SWE-Bencha, koji su ispitivali logičke i programerske sposobnosti modela, GDPval pomera fokus sa znanja na rezultat. Cilj je da se vidi ne samo da li AI razume zadatak, već koliko dobro ga obavlja u ekonomskom kontekstu.
OpenAI time uvodi novu metriku u svet veštačke inteligencije — vrednost u praksi. Sledeće verzije GDPval-a uključivaće interaktivne tokove rada i kompleksnije zadatke koji bolje odražavaju stvarne procese rada. Ali već sada, suštinska poruka je jasna: veštačka inteligencija više nije samo alat za testiranje granica znanja, već postaje deo globalne ekonomije.




