Gemini Pro 3.1 ponovo podiže lestvicu u AI trci

Google je predstavio novu verziju svog Gemini Pro modela, označenu kao 3.1, uz poruku da je reč o značajnom skoku u sposobnosti zaključivanja i rešavanja složenih zadataka. Iako je model u startu dostupan kroz preview, najava je odmah izazvala pažnju jer se novi Gemini Pro vezuje za rekordne rezultate na strožim testovima, baš onim koji pokušavaju da izmere razliku između uverljivog teksta i stvarnog razmišljanja u više koraka.

Vreme Čitanja: 2 min

gemini-3161-fi

Izvor: Printscreen/ Google gemini

Rekordi na testovima nisu isto što i stabilnost u praksi

U poslednjih godinu dana tržište je postalo prezasićeno velikim rečima, pa se svaka ozbiljna najava danas svodi na jedno pitanje, da li novi model stvarno donosi vidljiv napredak ili je reč o pažljivo biranim demonstracijama. Google tvrdi da je Gemini Pro 3.1 posebno ojačan u oblasti rezonovanja, dakle u zadacima gde nije dovoljno znati činjenice, već ih povezati, raspakovati problem na korake i doći do rešenja bez oslanjanja na šablone. Zbog toga se u prvi plan guraju benchmark testovi koji traže snalaženje u novim logičkim obrascima, a ne samo prepoznavanje poznatih tipova pitanja, piše TechChrunch.

U realnom radu korisnike više zanima koliko je model stabilan kada dobije neuredan upit, kontradiktorne podatke, previše konteksta, ili kada treba da napravi plan, proveri svoje pretpostavke i jasno objasni zaključak. Tu se obično vidi razlika između modela koji pobeđuje na testu i modela koji se može pustiti u produkciju bez straha da će praviti sitne ali skupe greške.

Google očigledno pokušava da Gemini Pro 3.1 pozicionira kao motor za ozbiljnije radne tokove, ne samo za razgovor i generisanje teksta. To je smer koji podrazumeva integraciju u alate, dokumente, analitiku, razvoj softvera i poslovne procese. U tom scenariju nije presudno da model bude duhovit ili brz, već da bude dosledan, da zna kada nešto ne zna, i da isporuči rezultat koji može da se proveri.

Trka se sve više seli sa površinskog kvaliteta odgovora na sposobnost modela da rešava probleme kao asistent koji razume cilj, ograničenja i posledice. Za korisnike, prava vest neće biti rekordna brojka, već trenutak kada u svakodnevnom radu osete manje halucinacija, više preciznih koraka i manje potrebe da sve proveravaju ručno. Ako Gemini Pro 3.1 to isporuči, onda rekord ima smisla. Ako ne, biće još jedan dokaz da test i stvarnost nisu isto.

Prijavi se na WebMind NJUZLETER, čeka te izbor konkretnih priča i uvida.

Prijavi se na novosti.