Zvuk budućnosti dolazi iz kompozicije veštačke inteligencije
Zamislite sledeći scenario: napišete nekoliko rečenica, dodate fotografiju, možda i kratki video – i za nekoliko sekundi, dobijete potpuno novu muzičku kompoziciju koja zvuči kao da ju je napravio iskusan kompozitor. Upravo to omogućava AudioX, napredni AI model koji kombinuje različite modalitete podataka i pretvara ih u zvučnu umetnost.
Za razliku od dosadašnjih rešenja, koja su uglavnom bila fokusirana na jednu vrstu ulaza (npr. tekst u zvuk ili video u zvuk), AudioX koristi takozvanu difuzionu transformator arhitekturu u kombinaciji sa multimodalnim maskiranjem. Ovaj tehnički pristup omogućava modelu da simultano uči iz raznih izvora podataka – bilo da su vizuelni, auditivni ili tekstualni – i iz njih stvara visokokvalitetni audio sadržaj.
Testiranja i rezultati
Testiranja su pokazala impresivne rezultate. AudioX ne samo da može da generiše muziku iz teksta, već uspešno dovršava nedovršene muzičke kompozicije, popunjava nedostajuće delove zvučnih zapisa (tzv. audio inpainting), i precizno interpretira video sadržaj u audio formi. Štaviše, rezultati su ocenjeni kao realistični i emotivno angažovani, što otvara vrata širokoj primeni – od filmske industrije i video igara, do obrazovanja i digitalne umetnosti.
Jedan od sledećih koraka u razvoju jeste da se modelu „dodaju uši publike“ – odnosno, da se u obučavanje uključi i ljudska estetska procena kroz tzv. „reinforcement learning with human feedback“. Time bi se postiglo bolje usklađivanje sa ukusima i očekivanjima stvarnih korisnika, objavio je portal TechXplore.
AudioX je više od eksperimenta – to je prozor u budućnost u kojoj će zvuk postajati inteligentniji, personalizovaniji i neodvojiv deo digitalnog sveta. I dok se kreativci još pitaju da li je mašina sposobna za umetnost, AudioX već komponuje odgovore.


