Danas su veliki jezički modeli (LLM) jako popularni, pri čemu se konstantno pojavljuju novi. Većina ovih jezičkih divova, poput OpenAI-ovog ChatGPT-a i Google-ovog Barda, obučena su koristeći tekstualne podatke prikupljene s web stranica, radova, knjiga i bilo čega drugog što sadrži jezik na internetu.
Ali šta ako bi LLM-ovi bili obučavani na dark webu umesto na klasičnom internetu koji nam je svima poznat? Uz podršku kompanije za prikupljanje podataka S2W, istraživači Korejskom naprednom institutu za nauku i tehnologiju (KAIST) su to uspešno ostvarili.
Iz ove revolucionarna saradnja proistekao je jedinstveni generativni AI model simbolično nazvan DarkBERT čija je primarna svrha borba protiv saber kriminala.
Šta je DarkBERT?
Za razliku od klasičnih LLM-ova obučenih na osnovu podataka dostupnih na internetu, istraživači su obučili DarkBERT na skupovima podataka preuzetih isključivo sa dark weba. Tim je koristio mrežu pod imenom Tor – jednu od mreža preko kojih možete pristupiti dark webu – kako bi integrisao DarkBERT u ovaj tajanstveni ekosistem i prikupio obimne sirove podatke za obuku.
Kako bi se nosili etičkim problemima povezanim s sadržajem dark weba, tim nije primenio originalne. Umesto toga, istraživači su primenili niz mera uključujući deduplikaciju (uklanjanje duplikata), filtriranje podataka i prethodnu obradu. Ove zaštitne mere su primenjene da bi se obezbedilo odgovorno rukovanje osetljivim informacijama koje se obično nalaze unutar dark weba.
Izvor: IFLScience
Tokom procesa obuke, DarkBERT je dobijao dva različita skupa podataka u rasponu od 16 dana. Prethodno obrađeni skup podataka prošao je kroz pažljivu cenzuru, pri čemu su sakriveni određeni detalji. To mogu biti imena organizacija žrtava, specifičnosti procurelih podataka, pretnji i nezakonite slike. Među obimnim podacima preko hiljadu stranica je kategorisano kao zabava za odrasle, što odražava raznovrsnu prirodu sadržaja koji se može videti na dark webu.
Kako je nastao DarkBERT?
Novi AI alat se oslanja na poznati algoritam RoBERTa koji su istraživači Fejsbuka predstavili još 2019. Međutim, iako je model RoBERTa bio izuzetan u predviđanju skrivenih delova teksta unutar neanotiranih jezičkih uzoraka, izuzetne sposobnosti DarkBERT-a prevazilaze konvencionalne mogućnosti.
Kako je istaknuto u istraživačkom radu tima, DarkBERT pokazuje ogromne sposobnosti u otkrivanju složenih nijasni dark weba. Njegovenapredne funkcionalnosti protežu se kroz kompleksne nijanse i skrivene dubine koje su tipične za ovaj mračni digitalni prostor.
Koja je svrha DarkBERT-a?
Uprkos svom naizgled zlokobnom imenu, DarkBERT nije namenjen da se koristi za bilo kakve zle planove. Umesto toga, dizajniran je za primene u oblasti bezbednosti i sprovođenja zakona.
Budući da je obučavan na dark webu, odnosno mreži sumnjivih web stranica na kojima se često otkrivaju ogromni skupovi ukradenih lozinki, DarkBERT se bolje snalazi u primenama kibernetičke bezbednosti/CTI (saznanja o pretnjama) od prethodnih jezičkih modela. Tvorci modela su pokazali kako ga koristiti za pronalaženje odakle ransomware može procureti.
Hakeri i slične malicionzne organizacije često prenose podatke na mračnu mrežu sa namerom da ih prodaju. Podaci obično uključuju osetljive informacije kao što su lozinke i podaci o banci. Prema studiji, DarkBERT može pomoći istraživačima da automatski prepoznaju ovakve web stranice. Osim toga, može se koristiti za provlačenje kroz ogroman broj dark web foruma i posmatrati bilo kakvo deljenje nelegalnog materijala.
Izvor: Difenda
Iako DarkBERT bolje obavlja „zadatke specifične za domen dark weba“ od drugih modela, istraživači su svesni da neki zadaci mogu zahtevati dodatna fina podešavanja. Uzrok tome je nedostatak javno dostupnih podataka sa dark weba.
Ipak, DarkBERT predviđa vreme kada će obučavanje AI modela na izuzetno specijalizovanim podacima omogućiti njihovo prilagođavanje određenim zadacima. Za razliku od višenamenskih ChatGPT-ja i Bard-a, DarkBERT je specijalizovani alat za ometanje hakera i drugih zlonamernih aktera na webu.
Trenutno je DarkBERT još uvek u fazi razvoja. Zbog škakljive i potencijalno rizične prirode podataka sa dark weba, model neće biti dostupan za javnu upotrebu u bliskoj budućnosti. Ipak, može se zatražiti u akademske i istraživačke svrhe.

Dark veb se često povezuje sa nedozvoljenim aktivnostima, kao što je prodaja droge, oružja, ukradenih podataka i druge ilegalne robe i usluge. Pruža platformu za različite kriminalne aktivnosti, uključujući hakovanje, sajber napade i razmenu osetljivih informacija.



