Wikipedia, ali za mašine: Prečica do pametnijih AI odgovora

Novi projekat pretvara znanje iz Wikimedijinih izvora u "vektorski“ format koji razumeju moderni modeli veštačke inteligencije, pa čatbotovi i istraživački alati mogu da pretražuju po značenju , brže, tačnije i uz manje halucinacija.

Vreme Čitanja: < 1 min

ai-wikipedia-4510-fi

Ilustracija: DALL-E3

Do sada su se projekti koji koriste Wikipediju i Wikidatu oslanjali na klasične API-je i SPARQL upite. To je radilo dobro za programere koji tačno znaju šta traže, ali je bilo tromo za sisteme koji treba da „shvate“ pitanje postavljeno prirodnim jezikom. Nova inicijativa umeće dodatni sloj: iz postojećih pojmova i njihovih odnosa gradi se vektorska reprezentacija, pa model može da pronađe relevantne entitete čak i kada korisnik koristi sinonime, kolokvijalne izraze ili opisne fraze.

Praktičan efekat vidi se u RAG scenarijima (retrieval-augmented generation): umesto da model nagađa, prvo dobija pouzdane isečke znanja (entiteti, opisi, prevodi, slike, spoljni identifikatori), a tek potom generiše odgovor. Time se smanjuje prostor za greške i olakšava navođenje izvora. Posebno je korisno za nišne teme, jezike manjeg obuhvata i lokalne kontekste koje „opšti“ korpusi slabo pokrivaju.

Otvorenost je ključna. Umesto skupih, zatvorenih skupova podataka s nejasnim pravima korišćenja, zajednica dobija javno dostupan, uređivan i proverljiv izvor, već pripremljen za semantičku pretragu. Manjim timovima to štedi mesece rada na izradi sopstvenih pipeline-ova za „embeddinge“, podešavanje baza i deduplikaciju, objavio je TechChrunch.

Za krajnjeg korisnika rezultat je jednostavan: kada pitate asistentu „ko je zaslužan za X“ ili „kako se Y razlikuje od Z“, dobićete sažet odgovor potkrepljen pojmovima koje možete proveriti. Za izdavače i institucije, to je način da sopstvene kolekcije povežu sa globalnim grafom znanja, bez lomljenja preko skupih integracija.

U trenutku kada se borba vodi za kvalitetne, pravno čiste podatke, ovo je signal da otvoreni projekti mogu da nameću standarde — ne samo u količini informacija, već u tome kako te informacije postaju smisao za mašine.

Prijavi se na novosti.