Obuka veštačke inteligencije u gejmingu i simulacijama korišćenjem dubinskog pojačanog učenja (DRL)

Ako ste uzbuđeni zbog mašinskog učenja i svega što Al tehnologija nudi, kao što se vidi na primeru sve popularnijeg Chat GPT-a, onda je ovaj članak prava stvar za vas. Razmatraćemo primenu osnova pojačanog učenja (reinforcement learning – neuronske mreže) u gejmingu i simulacijama. Takođe, govorićemo i o budućnosti ove tehnologije i uticaju na razvoj gejminga kao i potencijal koji drugi slučajevi korišćenja na polju zabave mogu imati u budućnosti. Hajde da krenemo!

Vreme Čitanja: 4 min

Dubinsko pojačano učenje (Deep reinforcement learning - DRL)

Illustracija: Milica Mijajlovic

Obuka veštačke inteligencije kako se igraju igrice 

Google-ov DeepMind project. možda je najočigledniji primer složenosti i nijansi kada je u pitanju kreiranje virtuelnog gejming agenta. Virtuelni AlphaGo igrač koji se pojavio kao rezultat ovog projekta pobedio je najboljeg Go igrača u istoriji i ostvario nešto što se smatralo nemogućim u tom trenutku. Ne zaboravite, Go je strateška društvena igra za dva igrača koja je nastala u Kini; cilj je da igrač zauzme više teritorije od protivnika. 

Kada je u pitanju kreiranje agenata veštačke inteligencije za gejming, situacija u kojoj su nadmudrili igrača može biti strategija koja će izazvati propast u određenom digitalnom svetu. Agenti veštačke inteligencije treba da budu inteligentni koliko je potrebno s ciljem da pruže zabavu i privuku igrače koji poseduju veštine na različitim nivoima. Kada Al razvije neku veštinu na ljudskom nivou, to može izazvati frustraciju i dovesti do masovnog odustajanja od igre među igračima. 

Najbolji primer Al-a koji uspeva da razvije neku veštinu na ljudskom nivou u jednoj timskoj pucačkoj igri (multiplayer shooter) bilo je istraživanje u okviru popularne igre Quake III Arena. Upotrebom pojačanog učenja (RL), u određenim trenucima, veštačka inteligencija uspela je da donese složene odluke i pobedi ljudske rivale. Ali šta je pojačano učenje i zašto se koristi u gejmingu i simulacijama. Hajde da vidimo o čemu je reč. 

Dubinsko pojačano učenje (Deep Reinforcement Learning – DLR)

Dubinsko pojačano učenje (deep reinforcement learning -DRL) zabeležilo je veliki napredak u odnosu na početnu ideju. Uključuje RL i dubinsko učenje. Dok RL uči agenta veštačke inteligencije da donosi odluke po principu pokušaja i pogrešaka, DRL mu omogućava da donosi odluke na osnovu nestrukturisanog inputa bez potrebe za manuelnim inženjeringom dok traju ove aktivnosti. 

U međuvremenu, u gejmingu, takvo mašinsko učenje koristi se za generisanje automatizovanog ponašanja integrisanih likova u okviru igre koji nisu igrači (non-player characters – NPC). Iako smo već spomenuli upotrebu kompleksne veštačke inteligencije u igrama, DRL i RL imaju svoju primenu i u ozbiljnim igrama. Ozbiljna igra (serious game – SG) je termin koji se koristi za igre koje nisu nastale s ciljem samo da zabave već i s ciljem da kreiraju obrazovnu vrednost. I dok su ozbiljne igre često napravljene za određenu publiku, granu industrije ili kompaniju, one imaju potencijal  da preuzmu svet elektronskog učenja (e-learning). 

Još jedan važan deo priče o DRL-u i RL-u i njihova uloga u onom što danas postoji jeste simulacija. U nastavku ćemo govoriti o simulaciji i zašto je važna. 

Markovljev model dubinskog učenja. Izvor: VMWare

Markovljev model dubinskog učenja. Izvor: VMWare 

Simulacija 

Počećemo tako što ćemo definisati termin simulacija pošto simulacija može imati više značenja. Simulacije se mogu odnositi na simulaciju leta,  kao i simulaciju električnih i mehaničkih komponenti. Dobru početnu definiciju dala je organizacija za istraživanje i tehnologiju TWI: 

Simulacija imitira funkcionisanje procesa ili sistema u stvarnom svetu upotrebom modela.“ 

U suštini, sistem koji obuhvata mnogobrojne inpute primenjuje matematičke funkcije na inpute i rezultira autputima u formi podataka je verovatno najjednostavnija definicija simulacije. Oni su važni za nas pošto RL zahteva veliki broj serija pokušaja i pogrešaka radi učenja. Ove serije pokušaja i pogrešaka često predstavljaju interakciju sa okruženjem i simulacija i simulatori ih obezbeđuju pravovremeno  i na najekonomičniji način. 

Alpha Go kompanije Google odigrao je na hiljade simuliranih mečeva u digitalnom prostoru umesto igranja sa stvarnim igračima što bi toliko povećalo troškove da razvoj ovih Al modela ne bi bio komercijalno izvodljiv. 

S tim u vezi, simulacije imaju veliku vrednost u industrijskoj primeni  a Microsoft-ov projekat Bonsai je odličan primer. Ova Al platforma dozvoljava kompanijama da programiraju kontrolu u industrijskim sistemima upotrebom DRL-a. Kompanije mogu da razviju BRAIN (Al model), povežu simulator i obuče model da nauči određeno ponašanje u industrijskoj primeni. 

Štaviše, osim gejminga i automatizovanja svakodnevnih zadataka, DRL i RL imaju potencijal za mnogo veću upotrebu kod slučajeva korišćenja. Da li ste čuli za Chat GPT? Mi jesmo a verujemo i da ste vi. U pitanju je Al četbot (chatbot) koji osvaja svet naprečac ali kako funkcioniše? Sad ćemo videti. 

Kako funkcioniše GPT? 

Chat GPT je „nastavak“ illi spinoff Instruct GPT-a koji je uveo pristup inkorporacije ljudskog fidbeka (feedback) u datoteke koji služe za trening. RL iz ljudskog fidbeka pomogao je pri kreiranju neverovatnih rezultata koje Chat GPT trenutno prikazuje. Međutim, nije to jedina komponenta koja je doprinela popularnosti ovog četbota. Preko 40 izvođača bilo je zaduženo za sakupljanje aktuelnih ljudskih upita za Open API platformu i pisanje odgovora na svaki upit. 

Kad je sve završeno, nadgledane datoteke koje su se koristile za trening četbota obuhvatale su 13.000 primera inputa i autputa. Nakon toga, tim je kreirao nagradni model, serije fraza ili ključnih reči (prompts) i odgovora, gde je autput skalarna vrednost ili nagrada. U poslednjoj fazi, model generiše autput na osnovu plana po kojem je naučio da maksimizira nagradu. Nagrade se vraćaju nazad u sistem s ciljem razvoja plana i kreiranja boljeg autputa za korisničke upite. 

Očigledno je da je ovaj model mnogo kompleksniji i suptilniji nego što je opisan u pojednostavljenom objašnjenju koje ćete videti iznad. Za one koji žele da se pozabave tehničkim detaljima, originalni rad će poslužiti kao najbolji izvor informacija. 

Training language model from OpenAI. Source: Arxiv 

Jezički model koji OpenAI koristi za trening. Izvor: Arxiv

Budućnost našeg heroja veštačke inteligencije 

U ovom trenutku, stručnjaci na polju veštačke inteligencije rade na treninzima u različitim okruženjima i upotrebi jezičkih modela kako bi pomogli u obuci Al-u u različitim domenima. Ova izjava često vodi u filozofske diskusije o veštačkoj generalnoj inteligenciji (AGI), vrsti Al-a koja može da nauči bilo koji intelektualni zadatak kao ljudsko biće. Ova vizija budućnosti predviđa sveznajuće (super smart) mašine koje rade zajedno sa ljudima na rešavanju gotovo svakog problema koje može zadesiti ljudski rod: bolesti, klimatske promene, energija, ekonomija, fizika itd. 

Iako će ovo rešenje „sa druge planete“ možda i da postoji u dalekoj budućnosti ili možda nikada ne bude izgledalo onako kao što su zamislili futuristi, činjenica je da mu se približavamo. Neverovatni rezultati koje ima Chat GPT, zahvaljujući kombinaciji RL-a i dubinskih neuronskih mreža, ponudio nam je uvid u ono što nas može čekati u budućnosti. Iako preopterećenost  informacijama možda predstavlja problem u ovom trenutku, postojanje nečeg sličnog kao što je Chat GPT može, u stvari, dugoročno gledano, dovesti do zanemarivanja naših intelektualnih sposobnosti. 

Bez obzira na to, RL i DRL odgovorne su za nastanak pokreta koji će verovatno biti jako teško zaustaviti a na nama je da uživamo i u razvoju i u neverovatnoj budućnosti koja nas čeka. 

Dino Kurbegović is a project coordinator and an investor and technology enthusiast with years of experience in managing complex projects. His journey into content writing began in 2014, covering finance, investing, crypto, technology and complex technical topics.

Prijavi se na novosti.

IZBOR UREDNIKA

Prijavi se na novosti.