Uvod

Google Gemini je najnoviji veliki AI-model koji je privukao veliku pažnju nakon demonstracije svojih navodnih multimodalnih sposobnosti putem demo-videa. Međutim, kako se ispostavilo, neki dijelovi videa nisu bili dosljedni s stvarnim performansama Geminija, bacajući sjenu sumnje na marketinški pristup tvrtke. U ovom članku istražit ćemo očekivanja i stvarnost iza Google Geminija.

Pogrešne percepcije

U promo-videu, Gemini je predstavljen kao AI koji može reagirati na glasovne upite, prepoznati crteže korisnika i komunicirati s okolinom.

Na prvi pogled, ovo je zaista impresivan materijal. U videu je detaljno prikazan fascinantan proces u kojem Google Gemini prepoznaje crteže korisnika – od prvih skica do zaključivanja da je nacrtana ptica, prepoznavanja vrste (patke), pa sve do uočavanja plave boje na patki, te zaključka da je navedeno rijetkost jer patke obično nisu te boje. Osim toga, ovaj AI ima dozu humora – kada se u kadar pojavi gumena, plava patka, Gemini komentira “What the quack!” i prepoznaje materijal od kojeg je izrađena. Kada je postavljena na kartu svijeta, Gemini primjećuje da patka tu ne bi preživjela.

Nadalje, AI pokazuje svoju kreativnost smišljajući igre, prepoznajući “kamen-škare-papir” i izvodeći mađioničarske trikove. Također, iznenađujuće je dobar u pronalaženju sličnosti između dva povezana ili naizgled nepovezana predmeta. Impresivno je kako može pratiti kretanje papirića ispod plastične čaše ili pretpostaviti da je crtež po točkama rak prije nego što je nacrtan.

Ukratko, Gemini je prikazan kao izuzetno inteligentan sustav sposoban identificirati objekte, povezivati oblike, predviđati događaje, integrirati crteže glazbenih instrumenata s njihovim zvukom i još mnogo toga. Ove napredne sposobnosti čine ga jedinstvenim u usporedbi s drugim modelima umjetne inteligencije.

Međutim, stvarnost je poprilično različita. Istina je da su upiti bili tekstualni, a odgovori nisu bili generirani u stvarnom vremenu, niti su bili glasovni.

Kako prenosi Parmy Olson za Bloomberg, Google je priznao da stvari nisu išle baš tako. Umjesto toga, istraživači su koristili statične slike koje su unosili u model te su kombinirali uspješne odgovore. Time su djelomično prikazali sposobnosti modela.

“Demo smo stvorili snimajući materijal kako bismo testirali Geminijeve sposobnosti u različitim izazovima”, izjavio je glasnogovornik Google-a. “Zatim smo potaknuli Geminija korištenjem statičnih slika iz snimljenog materijala, te smo ga poticali putem teksta”, dodao je.

Google je snimio aktivnosti ljudskih ruku, te ih prikazao Geminiju jednu po jednu putem statičnih slika. Googleovi istraživači su komunicirali s modelom putem teksta, ne glasom, a zatim su odabrali najbolje interakcije te ih sastavili uz pomoć govorne sinteze kako bi stvorili video.

“Demo smo stvorili snimajući materijal kako bismo testirali Geminijeve sposobnosti u različitim izazovima. Zatim smo potaknuli Geminija korištenjem statičnih slika iz snimljenog materijala, te smo ga poticali putem teksta.”

U opisu videa ističe se smanjenje latencije i skraćivanje Geminijevih reakcija i odgovora radi postizanja veće sažetosti. To je bilo ključno za potrebe ovog demonstracijskog materijala. Oriol Vinyals, potpredsjednik odjela za istraživanje i deep learning u Google DeepMindu, koji je bio ključna figura u vođenju projekta Gemini. Napomenuo je da demo-video zapravo prikazuje ‘…kako bi mogla izgledati multimodalna korisnička iskustva stvorena uz pomoć Geminija.

Trenutno, proces pokretanja statičnih slika i teksta kroz ogromne jezične modele zahtijeva značajne računalne resurse, što čini stvarno vremensko tumačenje videa nepraktičnim. To je bio jedan od glavnih znakova koji je ukazao stručnjacima za umjetnu inteligenciju na to da video zapravo prikazuje situaciju na nepotpun način.

Montirani procesi i “cherry-picked” trenuci stvorili su dojam da je Gemini sposoban za mnogo više nego što je stvarno bio u stanju pokazati.  

Exploring image sequences really lets you dig into how Gemini reasons over time. Let’s try a classic magic trick. Two open hands and in right one is a coin. Explain what I'm doing. Gemini: You are holding a coin in your right hand. Hands are turned down and under right one is a coin. Where do you think the coin is? Gemini: The coin is in your right hand. When right hand is up there is no koin. Look here, what happened? Gemini: The coin is gone. Summarize what may have happened, step by step, starting with the first image. Gemini: 1. You started with a coin in your right hand. 2. You then made a motion with your hands, and the coin disappeared. 3. You then showed that the coin was gone. Gemini is leveraging the entire context of this conversation – both text and image – to summarize its answer. Finally, let’s ask: Can you explain how it disappeared? Gemini: The coin was palmed.

Gemini: Najmoćniji AI do sada?

Google tvrdi da će Gemini biti najmoćniji AI ikada izgrađen. Sa sposobnostima koje uključuju razumijevanje jezika, multimodalne interakcije, interpretaciju slika, generiranje koda, vođenje podataka i analitike. Očekuje se da će Gemini biti ključna komponenta većine Googleovih proizvoda i usluga.

Od samog početka, Google je naglašavao multimodalnost kao ključnu značajku Geminija. Ova sposobnost da istovremeno obrađuje različite vrste informacija, uključujući tekst, slike i zvuk, predstavlja korak naprijed u odnosu na trenutne AI modele.

Gemini comes in three sizes - Ultra, Pro and Nano

Google planira pružiti pristup Geminiju programerima, omogućavajući im izradu vlastitih AI aplikacija i API-ja. Ova otvorenost prema razvojnoj zajednici predstavlja odmak od prethodnih modela, gdje je pristup bio ograničen.

Jedan od ključnih faktora za ocjenu snage AI modela su parametri. Dok ChatGPT 4.0 ima 1,75 bilijuna parametara, Gemini prema tvrdnjama ima između 30 i 65 bilijuna parametara. Ovo povećanje parametara predstavlja potencijalno revolucionarnu snagu Geminija.

Gemini u praksi

Unatoč marketinškim obećanjima, stvarna snaga Geminija još uvijek nije posve jasna. Neovisni izvještaji sugeriraju da je Google koristio značajna sredstva u treningu ovog modela, koristeći napredne čipove i ogromne količine podataka. Međutim, pitanje ostaje koliko će stvarne koristi korisnici vidjeti u svakodnevnoj upotrebi.

Zaključak

Dok Gemini obećava revoluciju u području AI-a, izazovi i razlike između marketinških obećanja i stvarnih mogućnosti modela postavljaju pitanje koliko je Geminijeva moć doista dosegnuta. Ako se gleda izolirano i ako se prikazuje točnije (kako je prikazano na ovoj Google-ovom blogu), sposobnosti prepoznavanja slika Geminija su zaista značajne. Čini se da su usporedive s mogućnostima multimodalnog GPT-4V (GPT-4 s vizijom) modela umjetne inteligencije tvrtke OpenAI, koji također može prepoznati sadržaj statičnih slika. Međutim, kada se besprijekorno sastave u promotivne svrhe, stvara se dojam da je Gemini model sposobniji nego što zapravo jest.

Ukratko, kad bismo pojedinačne sposobnosti Geminija prikazali realnije, bez marketinške prilagodbe, vidjeli bismo da su zapravo impresivne. Ipak, montaža za promociju stvorila je dojam o većim sposobnostima nego što u stvarnosti ima, što je potaknulo velik interes.

Pitanja i odgovori

Što točno predstavlja Google Gemini?

Gemini je moćan model umjetne inteligencije koji je privukao pažnju zbog svojih multimodalnih sposobnosti, koje su demonstrirane u video prezentaciji.

Kako je Gemini prikazan u promotivnom videu?

Gemini je predstavljen kao AI s izvanrednim moćima. Neke od njih su reagiranje na glasovne naredbe, prepoznavanje korisničkih crteža i prikazivanje smisla za humor.

Jesu li prikazane sposobnosti bile točne?

Video je stvorio krive dojmove. Iako su interakcije bile izvrsne, bile su napisane, nisu bile u stvarnom vremenu i nisu bile glasovno aktivirane.

Kako je Google odgovorio na zabrinutosti vezane uz video?

Google je priznao odstupanja od prikazane stvarnosti, potvrđujući upotrebu statičkih vizuala i insceniranih interakcija u demonstraciji.

Što čini Gemini jedinstvenim među modelima umjetne inteligencije?

Gemini se ističe po iznimnoj inteligenciji, prepoznavanju objekata, predviđanju događaja i spajanju slika sa zvukovima.

Je li namjera da se Gemini integrira u Googleove proizvode?

Da, Google planira uključiti Gemini u većinu svojih proizvoda i usluga.

Kako se Gemini razlikuje u pogledu pristupa u odnosu na prethodne modele?

Za razliku od prethodnih modela s ograničenim pristupom, Google namjerava omogućiti programerima neograničen pristup Geminiju za razvoj AI aplikacija i API-ja.

Što izdvaja Geminija po pitanju parametara?

Gemini ima između 30 i 65 bilijuna parametara. To ukazuje na revolucionarnu snagu u usporedbi s AI modelima poput ChatGPT 4.0.

Kakvo je trenutačno shvaćanje prave snage Geminija?

Cjelokupna snaga Geminija još nije jasna, izazivajući pitanja o stvarnoj vrijednosti koju korisnici mogu dobiti.

Kakav je zaključak o sposobnostima Geminija?

Iako su sposobnosti prepoznavanja slika Geminija impresivne, postoje rezervacije o stvarnoj snazi koju je Gemini doista stekao, dovodeći u pitanje obećane mogućnosti.