Google își turboalimentează motorul genAI cu Gemini 1.5

La doar o săptămână după lansarea celui mai recent model de inteligență artificială generativă (genAI), Google, joi a dezvăluit succesorul acelui model, Gemeni 1.5. Compania se laudă că noua versiune este cea mai bună versiune anterioară pe aproape toate fronturile.

Gemeni 1.5 este un model AI multimodal acum gata pentru testarea timpurie. Spre deosebire de popularul ChatGPT al OpenAI, a spus Google, utilizatorii pot introduce în motorul său de interogări o cantitate mult mai mare de informații pentru a obține răspunsuri mai precise.

(OpenAI a anunțat și astăzi un nou model AI: Sora, un model text-to-video care poate genera scene video complexe cu mai multe personaje, tipuri specifice de mișcare și detalii precise ale subiectului și fundalului „în același timp menținând calitatea vizuală și aderarea la solicitarea utilizatorului”. Modelul înțelege nu numai ce a cerut utilizatorul în prompt, ci și cum există acele lucruri în lumea fizică.)

openais sora film scene OpenAI

O scenă de film generată de Sora.

Modelele Google Gemini sunt singurele modele de limbaj mari (LLM) native, multimodale; atât Gemini 1.0, cât și Gemini 1.5 pot ingera și genera conținut prin text, imagini, sunet, video și solicitări de cod. De exemplu, solicitările utilizatorului în modelul Gemini pot fi sub formă de imagini JPEG, WEBP, HEIC sau HEIF.

“Atât OpenAI, cât și Gemini recunosc importanța multi-modalității și o abordează în moduri diferite. Să nu uităm că Sora este un simplu model de previzualizare/disponibilitate limitată și nu ceva care va fi disponibil în general în termen scurt”, a spus. Arun Chandrasekaran, un distins analist vicepreședinte Gartner.

Sora de la OpenAI va concura cu start-up-uri precum producătorul de modele text-to-video AI pistael a spus.

Gemeni 1.0, anunțat pentru prima dată în decembrie 2023, a fost lansat săptămâna trecută. Cu această mișcare, Google a spus că a făcut-o reconstruit și redenumit chatbot-ul său Bard.

zodia Gemeni are flexibilitatea de a rula pe orice, de la centre de date la dispozitive mobile.

Deși ChatGPT 4, cel mai recent LLM al OpenAI, este multimodal, oferă doar câteva modalități, cum ar fi imagini și text sau text în video, potrivit Chirag Dekate, un analist vicepreședinte Gartner.

„Google își asumă rolul de lider ca furnizor de cloud AI. Nu se mai joacă să prindă din urmă. Alții sunt”, a spus Dekate. „Dacă sunteți un utilizator înregistrat al Google Cloud, astăzi puteți accesa mai mult de 132 de modele. Gama sa de modele este nebună.”

„Media și divertismentul vor fi industria verticală care ar putea adopta devreme modele ca acestea, în timp ce funcții de business, cum ar fi marketingul și designul din cadrul companiilor și întreprinderilor de tehnologie, ar putea fi, de asemenea, primitori”, a spus Chandrasekaran.

În prezent, OpenAI lucrează la următoarea generație a GPT 5; este posibil ca acel model să fie și multimodal. Dekate, totuși, a susținut că GPT 5 va fi compus din multe modele mai mici pietruite împreună și nu va fi multimodal în mod nativ. Acest lucru va duce probabil la o arhitectură mai puțin eficientă.

Primul model Gemini 1.5 pe care Google l-a oferit pentru testarea timpurie este Gemini 1.5 Pro, pe care compania l-a descris drept „un model multimodal de dimensiuni medii, optimizat pentru scalare într-o gamă largă de sarcini”. Modelul funcționează la un nivel similar cu Gemini 1.0 Ultra, cel mai mare model al său până în prezent, dar necesită mult mai puține cicluri GPU, a spus compania.

Gemin 1.5 Pro introduce, de asemenea, o caracteristică experimentală în înțelegerea contextului lung, ceea ce înseamnă că permite dezvoltatorilor să solicite motorului cu până la 1 milion de jetoane de context.

Dezvoltatorii pot înscrieți-vă pentru o previzualizare privată de Gemini 1.5 Pro în Google AI Studio.

Google AI Studio este cea mai rapidă modalitate de a construi cu modele Gemini și le permite dezvoltatorilor să integreze API-ul Gemini în aplicațiile lor. Este disponibil în 38 de limbi în peste 180 de țări și teritorii.

grafic Gemini 1.5 Google

O comparație între Gemini 1.5 și alte modele AI în ceea ce privește ferestrele de context token.

Modelul Google Gemini a fost construit de la zero pentru a fi multimodal și nu constă din mai multe părți stratificate una peste alta, așa cum sunt modelele concurenților. Google numește Gemini 1.5 „un model multimodal de dimensiuni medii” optimizat pentru scalare într-o gamă largă de sarcini; în timp ce acesta funcționează la un nivel similar cu 1.0 Ultraface acest lucru prin aplicarea multor modele mai mici sub o singură arhitectură pentru sarcini specifice.

Google atinge aceeași performanță într-un LLM mai mic, folosind un cadru din ce în ce mai popular cunoscut sub numele de „Amestec de experți”, sau MoE. Bazat pe două elemente cheie de arhitectură, MoE stratifică o combinație de rețele neuro mai mici și rulează o serie de routere de rețea neuro care conduc în mod dinamic ieșirile de interogare.

„În funcție de tipul de intrare dat, modelele MoE învață să activeze selectiv doar cele mai relevante căi de experți din rețeaua sa neuronală. Această specializare sporește masiv eficiența modelului”, Demis Hassabis, CEO al Google DeepMind, a spus într-o postare pe blog. „Google a fost unul dintre cei mai devreme care adoptă și pionier al tehnicii MoE pentru învățarea profundă prin cercetare, cum ar fi MoE limitat, GShard-Transformer, comutator-transformator, M4 și altele.”

Arhitectura MoE permite unui utilizator să introducă o cantitate enormă de informații, dar permite ca această intrare să fie procesată cu mult mai puține cicluri de calcul în etapa de inferență. Apoi poate oferi ceea ce Dekate a numit „ai răspunsuri extrem de precise”.

„Concurenții lor se luptă să țină pasul, dar concurenții lor nu au DeepMind sau GPU (capacitatea) pe care Google trebuie să ofere rezultate”, a spus Dekate.

Cu noua caracteristică de înțelegere a contextului lung, Gemini 1.5 are o fereastră de context de 1,5 milioane de jetoane, ceea ce înseamnă că poate permite unui utilizator să tasteze o singură propoziție sau să încarce mai multe cărți cu informații în interfața chatbot și să primească înapoi o informație țintită, precisă. raspuns. Prin comparație, Gemini 1.0, avea o fereastră de context de 32.000 de token.

LLM-urile rivale sunt de obicei limitate la aproximativ 10.000 de ferestre de context de token – cu așteptarea GPT 4, care poate accepta până la 125.000 de token-uri.

În mod nativ, Gemini 1.5 Pro vine cu o fereastră de context standard de 128.000 de jetoane. Cu toate acestea, Google permite unui grup limitat de dezvoltatori și clienți de întreprindere să o încerce în previzualizare privată cu o fereastră de context de până la 1 milion de jetoane prin AI Studio și Vertex AI; va crește de acolo, a spus Google.

„Pe măsură ce lansăm fereastra de context de un milion de token, lucrăm activ la optimizări pentru a îmbunătăți latența, a reduce cerințele de calcul și a îmbunătăți experiența utilizatorului”, a spus Hassabis.

Drepturi de autor Cititi mai multe informatii interesante mai jos!


Va invit sa cititi si articolele de mai jos pe langa acestea care sunt cele mai recente

Lasa un comentariu