Uvod
Google Gemini je najnoviji veliki AI-model koji je privukao veliku pažnju nakon demonstracije svojih navodnih multimodalnih sposobnosti putem demo-videa. Međutim, kako se ispostavilo, neki dijelovi videa nisu bili dosljedni s stvarnim performansama Geminija, bacajući sjenu sumnje na marketinški pristup tvrtke. U ovom članku istražit ćemo očekivanja i stvarnost iza Google Geminija.
Pogrešne percepcije
U promo-videu, Gemini je predstavljen kao AI koji može reagirati na glasovne upite, prepoznati crteže korisnika i komunicirati s okolinom.
Na prvi pogled, ovo je zaista impresivan materijal. U videu je detaljno prikazan fascinantan proces u kojem Google Gemini prepoznaje crteže korisnika – od prvih skica do zaključivanja da je nacrtana ptica, prepoznavanja vrste (patke), pa sve do uočavanja plave boje na patki, te zaključka da je navedeno rijetkost jer patke obično nisu te boje. Osim toga, ovaj AI ima dozu humora – kada se u kadar pojavi gumena, plava patka, Gemini komentira “What the quack!” i prepoznaje materijal od kojeg je izrađena. Kada je postavljena na kartu svijeta, Gemini primjećuje da patka tu ne bi preživjela.
Nadalje, AI pokazuje svoju kreativnost smišljajući igre, prepoznajući “kamen-škare-papir” i izvodeći mađioničarske trikove. Također, iznenađujuće je dobar u pronalaženju sličnosti između dva povezana ili naizgled nepovezana predmeta. Impresivno je kako može pratiti kretanje papirića ispod plastične čaše ili pretpostaviti da je crtež po točkama rak prije nego što je nacrtan.
Ukratko, Gemini je prikazan kao izuzetno inteligentan sustav sposoban identificirati objekte, povezivati oblike, predviđati događaje, integrirati crteže glazbenih instrumenata s njihovim zvukom i još mnogo toga. Ove napredne sposobnosti čine ga jedinstvenim u usporedbi s drugim modelima umjetne inteligencije.
Međutim, stvarnost je poprilično različita. Istina je da su upiti bili tekstualni, a odgovori nisu bili generirani u stvarnom vremenu, niti su bili glasovni.
Kako prenosi Parmy Olson za Bloomberg, Google je priznao da stvari nisu išle baš tako. Umjesto toga, istraživači su koristili statične slike koje su unosili u model te su kombinirali uspješne odgovore. Time su djelomično prikazali sposobnosti modela.
“Demo smo stvorili snimajući materijal kako bismo testirali Geminijeve sposobnosti u različitim izazovima”, izjavio je glasnogovornik Google-a. “Zatim smo potaknuli Geminija korištenjem statičnih slika iz snimljenog materijala, te smo ga poticali putem teksta”, dodao je.
Google je snimio aktivnosti ljudskih ruku, te ih prikazao Geminiju jednu po jednu putem statičnih slika. Googleovi istraživači su komunicirali s modelom putem teksta, ne glasom, a zatim su odabrali najbolje interakcije te ih sastavili uz pomoć govorne sinteze kako bi stvorili video.
U opisu videa ističe se smanjenje latencije i skraćivanje Geminijevih reakcija i odgovora radi postizanja veće sažetosti. To je bilo ključno za potrebe ovog demonstracijskog materijala. Oriol Vinyals, potpredsjednik odjela za istraživanje i deep learning u Google DeepMindu, koji je bio ključna figura u vođenju projekta Gemini. Napomenuo je da demo-video zapravo prikazuje ‘…kako bi mogla izgledati multimodalna korisnička iskustva stvorena uz pomoć Geminija.
Trenutno, proces pokretanja statičnih slika i teksta kroz ogromne jezične modele zahtijeva značajne računalne resurse, što čini stvarno vremensko tumačenje videa nepraktičnim. To je bio jedan od glavnih znakova koji je ukazao stručnjacima za umjetnu inteligenciju na to da video zapravo prikazuje situaciju na nepotpun način.
Montirani procesi i “cherry-picked” trenuci stvorili su dojam da je Gemini sposoban za mnogo više nego što je stvarno bio u stanju pokazati.
Gemini: Najmoćniji AI do sada?
Google tvrdi da će Gemini biti najmoćniji AI ikada izgrađen. Sa sposobnostima koje uključuju razumijevanje jezika, multimodalne interakcije, interpretaciju slika, generiranje koda, vođenje podataka i analitike. Očekuje se da će Gemini biti ključna komponenta većine Googleovih proizvoda i usluga.
Od samog početka, Google je naglašavao multimodalnost kao ključnu značajku Geminija. Ova sposobnost da istovremeno obrađuje različite vrste informacija, uključujući tekst, slike i zvuk, predstavlja korak naprijed u odnosu na trenutne AI modele.
Google planira pružiti pristup Geminiju programerima, omogućavajući im izradu vlastitih AI aplikacija i API-ja. Ova otvorenost prema razvojnoj zajednici predstavlja odmak od prethodnih modela, gdje je pristup bio ograničen.
Jedan od ključnih faktora za ocjenu snage AI modela su parametri. Dok ChatGPT 4.0 ima 1,75 bilijuna parametara, Gemini prema tvrdnjama ima između 30 i 65 bilijuna parametara. Ovo povećanje parametara predstavlja potencijalno revolucionarnu snagu Geminija.
Gemini u praksi
Unatoč marketinškim obećanjima, stvarna snaga Geminija još uvijek nije posve jasna. Neovisni izvještaji sugeriraju da je Google koristio značajna sredstva u treningu ovog modela, koristeći napredne čipove i ogromne količine podataka. Međutim, pitanje ostaje koliko će stvarne koristi korisnici vidjeti u svakodnevnoj upotrebi.
Zaključak
Dok Gemini obećava revoluciju u području AI-a, izazovi i razlike između marketinških obećanja i stvarnih mogućnosti modela postavljaju pitanje koliko je Geminijeva moć doista dosegnuta. Ako se gleda izolirano i ako se prikazuje točnije (kako je prikazano na ovoj Google-ovom blogu), sposobnosti prepoznavanja slika Geminija su zaista značajne. Čini se da su usporedive s mogućnostima multimodalnog GPT-4V (GPT-4 s vizijom) modela umjetne inteligencije tvrtke OpenAI, koji također može prepoznati sadržaj statičnih slika. Međutim, kada se besprijekorno sastave u promotivne svrhe, stvara se dojam da je Gemini model sposobniji nego što zapravo jest.
Ukratko, kad bismo pojedinačne sposobnosti Geminija prikazali realnije, bez marketinške prilagodbe, vidjeli bismo da su zapravo impresivne. Ipak, montaža za promociju stvorila je dojam o većim sposobnostima nego što u stvarnosti ima, što je potaknulo velik interes.
Pitanja i odgovori
Gemini je moćan model umjetne inteligencije koji je privukao pažnju zbog svojih multimodalnih sposobnosti, koje su demonstrirane u video prezentaciji.
Gemini je predstavljen kao AI s izvanrednim moćima. Neke od njih su reagiranje na glasovne naredbe, prepoznavanje korisničkih crteža i prikazivanje smisla za humor.
Video je stvorio krive dojmove. Iako su interakcije bile izvrsne, bile su napisane, nisu bile u stvarnom vremenu i nisu bile glasovno aktivirane.
Google je priznao odstupanja od prikazane stvarnosti, potvrđujući upotrebu statičkih vizuala i insceniranih interakcija u demonstraciji.
Gemini se ističe po iznimnoj inteligenciji, prepoznavanju objekata, predviđanju događaja i spajanju slika sa zvukovima.
Da, Google planira uključiti Gemini u većinu svojih proizvoda i usluga.
Za razliku od prethodnih modela s ograničenim pristupom, Google namjerava omogućiti programerima neograničen pristup Geminiju za razvoj AI aplikacija i API-ja.
Gemini ima između 30 i 65 bilijuna parametara. To ukazuje na revolucionarnu snagu u usporedbi s AI modelima poput ChatGPT 4.0.
Cjelokupna snaga Geminija još nije jasna, izazivajući pitanja o stvarnoj vrijednosti koju korisnici mogu dobiti.
Iako su sposobnosti prepoznavanja slika Geminija impresivne, postoje rezervacije o stvarnoj snazi koju je Gemini doista stekao, dovodeći u pitanje obećane mogućnosti.