Segment Anything Model (SAM): Univerzalni Meta AI alat za prepoznavanje objekata i njegove raznovrsne primene

Segment Anything Model (SAM) je alat za uređivanje fotografija i video zapisa koju je kompanija Meta nedavno objavila i koja vam omogućava da svaki objekat isečete jednim klikom. Drugim rečima, može da prepozna bilo koji objekat kao što bi to čovek uradio.
Imajući to u vidu, ovaj alat ima mnogo veći potencijal od isključive upotrebe u kreativnim industrijama. Na primer, može se koristiti za proučavanje svemira ili u vojsci.
Dakle, može li SAM biti prvi, fundamentalni model za segmentaciju slike?

Marija Stojadinović
10/04/2023

Vreme Čitanja: 3 min

Ilustracija: Segment Anything i MilicaM

SADRŽAJ

Šta je Segment Anything Model (SAM)?

Kako SAM funkcioniše?

Za šta će se SAM koristiti?

SAM ograničenja

Šta je Segment Anything Model (SAM)?

Pre nego što počnemo s temom, prvo moramo da objasnimo šta je segmentacija u ovom kontekstu, pošto je ovaj pojam ključan za razumevanje SAM-a.

Jednostavnim jezikom, kada segmentirate sliku, vi zapravo identifikujete koji pikseli slike pripadaju određenom objektu. To je ključni zadatak kompjuterskog vida. Ako ste ikada uređivali fotografiju i, recimo, uklonili nepravilnosti na koži, verovatno ste koristili segmentaciju. Naravno, njena primena ide mnogo dalje, kao što je analiza naučnih slika.

Prema blogu Segment Anything, do sada nije postojao sveobuhvatan model koji nije zahtevao visoko specijalizovan rad tehničkih stručnjaka sa pristupom AI infrastrukturi za obuku i velikim količinama pažljivo zabeleženih podataka.

Početkom aprila, Meta AI Research je predstavio Segment Anything Model (SAM) i prateću bazu podataka od 1,1 milijarde visokokvalitetnih maski za segmentaciju, zajedno sa 11 miliona slika.

Glavni cilj ovog projekta jeste izgradnja fundamentalnog modela segmentacije slike na osnovu tzv. promptova i, prema rečima projektnog tima, demokratizacija segmentacije tako što će se omogućiti široka primena ovog modela.

Evo šta je sam projektni tim naveo o projektu:

Projekat Segment Anything je pokušaj da se segmentacija slike uvede u eru fundamentalnih modela. Naši glavni doprinosi su novi zadatak (segmentacija na osnovu promptova), model (SAM) i baza podataka (SA-1B) koji čine ovaj iskorak mogućim.

Izvor: Whitepaper, strana 12

Drugim rečima:

SAM omogućava korisnicima da segmentiraju objekte jednim klikom ili interaktivnim klikom na tačke koje treba uključiti i isključiti iz objekta.
SAM može da izbaci više odgovarajućih maski kada se suoči sa nejasnim oblicima pri segmentaciji.
SAM može automatski da pronađe i obeleži sve objekte na slici.
SAM može da generiše masku za bilo koji prompt u realnom vremenu, što omogućava pravovremenu interakciju sa modelom.

Kako SAM funkcioniše?

Supervizovani trening ovog modela rezultirao je samonadzirućom tehnikom.

Tako su, na primer, slike grupisane po broju maski (u proseku ∼100 maski po slici). Prethodno eksperimentisanje i verifikacija od ljudi pokazali su da je SAM sada skoro u potpunosti (99,1%) sposoban da automatski ispravno obeleži slike.

Ova baza podataka dostupnih maski može se koristiti u istraživačke svrhe, dok je SAM dostupan pod otvorenom licencom (Apache 2.0).

Primer slika sa obeleženim maskama. Izvor: SAM Whitepaper

Kao što je ranije pomenuto, SAM je objavio bazu podataka od 11 miliona slika i, kako tvrde u zvaničnom whitepaper-u, sve su licencirane, u visokoj rezoluciji, i štite privatnost.

Ovo je još jedna revolucionarna praksa kada je reč o AI generisanim slikama, imajući u vidu da je osnivač MidJourney-ja Dejvid Holc priznao da je koristio na milione slika za obuku njihovog modela bez pristanka umetnika, tvrdeći da ne postoji način da se fotografija poveže sa vlasništvom, čime je priznao kršenje autorskih prava.

Dakle, ako je Meta zaista uspela da nađe način da to uradi u skladu sa autorskim pravima, to je zaista novi industrijski standard.

Naime, to je bilo moguće zahvaljujući tome što su radili sa provajderom koji radi direktno sa fotografima.

Takođe je važno naglasiti da je prosečna veličina slike 3300×4950 piksela, što može biti zahtevno kada je u pitanju prostor na uređaju i zato su unapred omogućili i umanjene verzije slika, čak do 1500 piksela. No, čak i kada se kvalitet smanji, on je i dalje bolji od postojećih baza podataka, kao što je COCO čije su slike ∼480×640 piksela.

I na kraju, dotaknimo se i teme koja se tiče brzine ovog modela. Trebalo bi da može da omogući besprekorno, interaktivno postavljanje promptova u realnom vremenu. Ili, da budemo precizniji, „enkoder za promptove i dekoder maski pokreću se putem veb pretraživača, na CPU-u, u ∼50ms.”

U ovoj fazi takođe možete da isprobate SAM demo verziju, koristeći sopstvene slike.

Za šta će se SAM koristiti?

Još jedna impresivna karakteristika koju treba zapamtiti u vezi sa SA projektom jeste da se može koristiti i za nove slike, bez potrebe za dodatnom obukom.

SAM ima opštu sliku o tome šta su objekti, i može da generiše maske za bilo koji objekat na bilo kojoj slici ili bilo kom video snimku, uključujući objekte i tipove slika sa kojima se nije susreo tokom treninga.

U početku, SAM će verovatno biti najzastupljeniji u ovim oblastima:

Uređivanje slika i video zapisa;
Dizajn (uključujući dizajn enterijera).

Ali zapravo, SAM bi mogao da bude primenjen u bilo kojoj oblasti koja zahteva pretraživanje i segmentiranje bilo kog objekta na bilo kojoj slici. To može biti nešto jednostavno poput razumevanja vizuelnog i tekstualnog sadržaja veb stranice.

Ako govorimo o malo impresivnijim slučajevima korišćenja, treba pomenuti AR/VR. Na primer, korisnik će moći da izabere objekat tako što će jednostavno pogledati u njega i moći će da ga podigne u 3D-u. Zar to nije supermoć o kojoj smo svi sanjali?

Zašto ne otići korak dalje i reći da se može koristiti za proučavanje svemira, lokalizacijom životinja ili predmeta za proučavanje i praćenje u videu.

SAM ograničenja

U navedenom izveštaju, projektni tim je ukazao i na ograničenja ovog modela koja su do sada primetili.

SAM uopšteno postiže dobre rezultate, ali definitivno nije besprekoran. Može da omaši finoću strukture, ili da mu se povremeno pričine male, nepovezane komponente, ili da ne obeleži granice tako precizno kao neke kompjuterski intenzivnije metode koje imaju mogućnost zumiranja.

Izvor: Whitepaper, strana 12

Pored toga, naglasili su da je model uglavnom dizajniran za opštu namenu. Dodatno, naveli su da će nastaviti da unapređuju text-to-mask komandu, brzinu performansi i lakoću dizajniranja jednostavnih promptova koji sprovode semantičku i panoptičku segmentaciju.

Ukoliko ste zainteresovani da saznate više o projektu Segment Anything, ohrabrujemo vas da pogledate zvanični sajt i pridružite se njihovom Discord kanalu.