Ce sunt LLM-urile și cum sunt ele utilizate în IA generativă?

Când ChatGPT a sosit în noiembrie 2022, a făcut ca ideea că inteligența artificială generativă (AI) ar putea fi folosit de companii și consumatori pentru a automatiza sarcini, pentru a ajuta cu idei creative și chiar pentru a codifica software.

Dacă trebuie să combinați un e-mail sau un fir de chat într-un rezumat concis, un chatbot, cum ar fi ChatGPT de la OpenAI sau Bard de la Google, poate face asta. Dacă aveți nevoie să vă înfrumusețați CV-ul cu un limbaj mai elocvent și puncte impresionante, AI vă poate ajuta. Doriți câteva idei pentru o nouă campanie de marketing sau de reclame? AI generativă la salvare.

ChatGPT înseamnă transformator pre-antrenat generativ de chatbot. Baza chatbot-ului este modelul de limbaj mare GPT (LLM), un algoritm de computer care procesează intrările în limbaj natural și prezice următorul cuvânt pe baza a ceea ce a văzut deja. Apoi prezice următorul cuvânt, și următorul cuvânt și așa mai departe până când răspunsul său este complet.

În cei mai simpli termeni, LLM-urile sunt motoare de predicție pentru cuvântul următor.

Împreună cu GPT-3 și 4 LLM de la OpenAILLM-urile populare includ modele deschise, cum ar fi cele de la Google LaMDA și Palmier LLM (baza pentru Bard), Hugging Face’s BLOOM și XLM-RoBERTa, NeMO LLM de la Nvidia, XLNet, Co: aiciși GLM-130B.

LLM-urile open-source, în special, câștigă teren, permițând unui grup de dezvoltatori să creeze modele mai personalizabile la un cost mai mic. Lansarea în februarie a lui Meta Lamă (Large Language Model Meta AI) a declanșat o explozie în rândul dezvoltatorilor care doresc să construiască pe deasupra LLM-urilor open-source.

LLM-urile sunt un tip de IA care sunt în prezent antrenate pe o mulțime de articole, intrări Wikipedia, cărți, resurse bazate pe internet și alte inputuri pentru a produce răspunsuri asemănătoare oamenilor la interogările în limbaj natural. Este o cantitate imensă de date. Dar LLM-urile sunt gata să se micșoreze, nu să crească, deoarece furnizorii caută să le personalizeze pentru utilizări specifice care nu au nevoie de seturile masive de date utilizate de cele mai populare modele de astăzi.

De exemplu, noul PaLM 2 LLM de la Google, anunțat la începutul acestei luni, utilizează de aproape cinci ori mai multe date de antrenament decât predecesorul său de acum un an – 3,6 trilioane de jetoane sau șiruri de cuvinte, conform unui raport. Seturile de date suplimentare permit lui PaLM 2 să efectueze sarcini mai avansate de codare, matematică și scriere creativă.

fermă de supercomputere llm Shutterstock

Formarea unui drept LLM necesită ferme de servere masive, sau supercalculatoare, cu suficientă putere de calcul pentru a aborda miliarde de parametri.

Deci, ce este un LLM?

Un LLM este o rețea neuro de învățare automată antrenată prin seturi de date de intrare/ieșire; frecvent, textul este neetichetat sau neclasificat, iar modelul folosește metodologia de învățare auto-supravegheată sau semi-supravegheată. Informațiile sunt ingerate sau conținutul introdus în LLM, iar rezultatul este ceea ce acel algoritm prezice că va fi următorul cuvânt. Intrarea poate fi date corporative proprietare sau, ca în cazul ChatGPT, orice date sunt alimentate și extrase direct de pe internet.

Instruirea LLM-urilor pentru a utiliza datele potrivite necesită utilizarea fermelor de servere masive și costisitoare care acționează ca supercalculatoare.

LLM-urile sunt controlate de parametri, cum ar fi milioane, miliarde și chiar trilioane dintre ei. (Gândiți-vă la un parametru ca la ceva care ajută un LLM să decidă între diferite opțiuni de răspuns.) OpenAI GPT-3 LLM are 175 de miliarde de parametri, iar cel mai recent model al companiei – GPT-4 – este pretins a avea 1 trilion de parametri.

De exemplu, ați putea tasta într-o fereastră de solicitare LLM „Pentru prânz astăzi am mâncat…”. LLM ar putea reveni cu „cereale” sau „orez” sau „friptură tartar”. Nu există un răspuns 100% corect, dar există o probabilitate bazată pe datele deja ingerate în model. Răspunsul „cereale” ar putea fi cel mai probabil răspuns pe baza datelor existente, astfel încât LLM ar putea completa propoziția cu acel cuvânt. Dar, deoarece LLM este un motor de probabilitate, atribuie un procent fiecărui răspuns posibil. Cerealele pot apărea în 50% din timp, „orezul” ar putea fi răspunsul în 20% din timp, friptură tartar .005% din timp.

„Ideea este că învață să facă asta”, a spus Yoon Kim, profesor asistent la MIT care studiază Învățare automată, Procesarea limbajului natural și Invatare profunda. „Nu este ca un om – un set de antrenament suficient de mare va atribui aceste probabilități.”

Dar ai grijă – gunoi intră, gunoi afară. Cu alte cuvinte, dacă informațiile pe care le-a ingerat un LLM sunt părtinitoare, incomplete sau altfel nedorite, atunci răspunsul pe care îl oferă ar putea fi la fel de nesigur, bizar sau chiar ofensator. Când un răspuns iese din calea normală, analiștii de date îl numesc „halucinații”, deoarece acestea pot fi atât de îndepărtate.

„Halucinațiile apar deoarece LLM, în cea mai mare parte a formei lor, nu au o reprezentare internă de stat a lumii”, a spus Jonathan Siddharth, CEO al Turing, o companie din Palo Alto, California, care folosește AI pentru a găsi, angaja și integra. inginerii de software de la distanță. „Nu există niciun concept de fapt. Ei prezic următorul cuvânt pe baza a ceea ce au văzut până acum – este o estimare statistică.”

Deoarece unii LLM se antrenează și pe date bazate pe internet, ei pot trece cu mult dincolo de ceea ce dezvoltatorii lor inițiali i-au creat pentru a face. De exemplu, Bing de la Microsoft folosește GPT-3 ca bază, dar interogează și un motor de căutare și analizează primele 20 de rezultate. Folosește atât un LLM, cât și internetul pentru a oferi răspunsuri.

„Vedem lucruri precum un model care este antrenat pe un limbaj de programare și apoi aceste modele generează automat cod într-un alt limbaj de programare pe care nu l-a văzut niciodată”, a spus Siddharth. „Chiar și limbajul natural; nu este instruit în limba franceză, dar este capabil să genereze propoziții în franceză.”

„Este aproape ca și cum ar fi un comportament emergent. Nu știm prea bine cum funcționează aceste rețele neuronale”, a adăugat el. „Este și înfricoșător și incitant în același timp.”

imagine chatbot Shutterstock

O altă problemă cu LLM-urile și parametrii lor sunt părtinirile neintenționate care pot fi introduse de dezvoltatorii LLM și colectarea de date auto-supravegheată de pe internet.

Sunt LLM-urile părtinitoare?

De exemplu, sisteme precum ChatGPT sunt foarte probabil să ofere răspunsuri părtinitoare de gen pe baza datelor pe care le-au ingerat de pe internet și programatori, potrivit lui Sayash Kapoor, doctor. candidat la Centrul pentru Politica de Tehnologia Informației al Universității Princeton.

„Am testat ChatGPT pentru prejudecăți care sunt implicite – adică genul persoanei nu este menționat în mod evident, ci doar inclus ca informații despre pronumele lor”, a spus Kapoor. „Adică, dacă înlocuim „ea” în propoziție cu „el”, ChatGPT ar fi de trei ori mai puțin probabil să facă o eroare.”

Prejudecățile înnăscute pot fi periculoase, a spus Kapoor, dacă modelele lingvistice sunt folosite în medii reale din lumea reală. De exemplu, dacă modelele de limbaj părtinitoare sunt utilizate în procesele de angajare, ele pot duce la părtinire de gen în lumea reală.

Astfel de părtiniri nu sunt rezultatul programării intenționate a dezvoltatorilor de modele pentru a fi părtinitoare. Dar, în cele din urmă, responsabilitatea pentru remedierea distorsiunilor revine dezvoltatorilor, deoarece ei sunt cei care lansează și profită de pe urma modelelor AI, a susținut Kapoor.

Ce este ingineria promptă?

În timp ce majoritatea LLM-urilor, cum ar fi GPT-4 de la OpenAI, sunt pre-umplute cu cantități masive de informații, ingineria promptă de către utilizatori poate, de asemenea, antrena modelul pentru o anumită industrie sau chiar pentru utilizare organizațională.

„Ingineria promptă înseamnă să decidem cu ce alimentam acest algoritm, astfel încât să spună ce vrem”, a spus Kim de la MIT. „LLM este un sistem care doar bâlbâie fără niciun context text. Într-un anumit sens al termenului, un LLM este deja un chatbot.”

Ingineria promptă este procesul de elaborare și optimizare a solicitărilor de text pentru un LLM pentru a obține rezultatele dorite. Poate la fel de importantă pentru utilizatori, ingineria promptă este pe cale să devină o abilitate vitală pentru profesioniștii IT și de afaceri.

Deoarece ingineria promptă este o disciplină în curs de dezvoltare și în curs de dezvoltare, întreprinderile se bazează pe broșuri și ghiduri prompte ca o modalitate de a asigura răspunsuri optime din aplicațiile lor AI. Există chiar și piețe care apar pentru solicitări, cum ar fi 100 de cele mai bune solicitări pentru ChatGPT.

Poate la fel de importantă pentru utilizatori, ingineria promptă este pe cale să devină o abilitate vitală pentru profesioniștii IT și de afaceri, potrivit Eno Reyes, un inginer de învățare automată cu Hugging Face, o platformă condusă de comunitate care creează și găzduiește LLM-uri. Inginerii prompti vor fi responsabili pentru crearea de LLM-uri personalizate pentru uz comercial.

Cum vor deveni LLM-urile mai mici, mai rapide și mai ieftine?

Astăzi, chatboții bazați pe LLM-uri sunt cel mai frecvent folosiți „din cutie” ca un text, interfață web-chat. Sunt folosite în motoarele de căutare, cum ar fi Google Bard și Microsoft Bing (bazat pe ChatGPT) și pentru asistența online automată a clienților. Companiile își pot ingera propriile seturi de date pentru a face chatbot-urile mai personalizate pentru afacerea lor particulară, dar precizia poate avea de suferit din cauza depozitului masiv de date deja ingerate.

„Ceea ce descoperim din ce în ce mai mult este că, cu modele mici pe care le antrenezi pe mai multe date…, ele pot face ceea ce obișnuiau să facă modelele mari”, a spus Thomas Wolf, co-fondator și CSO la Hugging Face, în timp ce participa la o conferință. Conferința MIT la începutul acestei luni. „Cred că ne maturizăm practic în modul în care înțelegem ce se întâmplă acolo.

„Există acest prim pas în care încerci totul pentru ca această primă parte a ceva să funcționeze, iar apoi te afli în faza în care încerci să… fii eficient și mai puțin costisitor de rulat”, a spus Wolf. „Nu este suficient să curățați întregul web, ceea ce face toată lumea. Este mult mai important să avem date de calitate.”

LLM-urile pot costa de la câteva milioane de dolari până la 10 milioane de dolari pentru a se antrena pentru cazuri de utilizare specifice, în funcție de dimensiunea și scopul lor.

Când LLM-urile își concentrează AI și puterea de calcul pe seturi de date mai mici, totuși, au performanțe la fel de bine sau mai bune decât enormele LLM care se bazează pe seturi masive de date amorfe. De asemenea, pot fi mai precise în crearea conținutului pe care utilizatorii îl caută – și sunt mult mai ieftin de instruit.

Eric Boyd, vicepreședinte corporativ al Platformelor AI la Microsoft, a vorbit recent la conferința MIT EmTech și a spus că atunci când compania sa a început să lucreze la modele de imagini AI cu OpenAI în urmă cu patru ani, performanța s-ar fi stabilit pe măsură ce seturile de date creșteau în dimensiune. Cu toate acestea, modelele lingvistice au avut o capacitate mult mai mare de a ingera date fără o încetinire a performanței.

Microsoft, cel mai mare susținător financiar al OpenAI și ChatGPT, a investit în infrastructură pentru a construi LLM-uri mai mari. „Deci, ne dăm seama acum cum să obținem performanțe similare fără a fi nevoie să avem un model atât de mare”, a spus Boyd. „Având în vedere mai multe date, timp de calcul și de antrenament, puteți găsi în continuare mai multă performanță, dar există și o mulțime de tehnici pe care le învățăm acum, pentru că nu trebuie să le facem atât de mari și să le putem gestiona. le mai eficient.

„Este foarte important pentru că… aceste lucruri sunt foarte scumpe. Dacă vrem să avem o adopție largă pentru ei, va trebui să ne dăm seama cât costă atât formarea lor, cât și servirea lor”, a spus Boyd.

De exemplu, când un utilizator trimite o solicitare la GPT-3, trebuie să acceseze toate cele 175 de miliarde de parametrii săi pentru a oferi un răspuns. O metodă pentru crearea de LLM mai mici, cunoscută sub numele rare modele experteeste de așteptat să reducă costurile de formare și de calcul pentru LLM, „rezultând modele masive cu o precizie mai bună decât omologii lor densi”, a spus el.

Cercetătorii de la Meta Platforms (fostul Facebook) cred că modelele rare pot atinge performanțe similare cu cele ale ChatGPT și ale altor LLM-uri masive folosind „o fracțiune din calcul”.

„Pentru modelele cu bugete de calcul relativ modeste, un model rar poate funcționa la egalitate cu un model dens care necesită de aproape patru ori mai mult calcul”, a spus Meta într-un Lucrare de cercetare octombrie 2022.

Modele mai mici sunt deja lansate de companii precum Aleph Alpha, Databricks, Fixie, Lumina pe, Stabilitate AIși chiar Open AI. LLM-urile mai agile au între câteva miliarde și 100 de miliarde de parametri.

modele llm Shutterstock

Problemele de confidențialitate și securitate încă abundă

În timp ce mulți utilizatori se minunează de capabilitățile remarcabile ale chatbot-urilor bazate pe LLM, guvernele și consumatorii nu pot închide ochii la potențialele probleme de confidențialitate care pândesc în interior, potrivit Gabriele Kaveckyte, consilier de confidențialitate la compania de securitate cibernetică. Surfshark.

De exemplu, la începutul acestui an, Italia a devenit prima națiune occidentală care a interzis dezvoltarea în continuare a ChatGPT din cauza preocupărilor legate de confidențialitate. Mai târziu a anulat acea deciziedar interdicția inițială a avut loc după ce aplicația de procesare a limbajului natural a suferit o încălcare a datelor care implică conversații cu utilizatorii și informații de plată.

„Deși unele îmbunătățiri au fost aduse de ChatGPT în urma interzicerii temporare a Italiei, există încă loc de îmbunătățire”, a spus Kaveckyte. „Abordarea acestor potențiale probleme de confidențialitate este esențială pentru a asigura utilizarea responsabilă și etică a datelor, pentru a promova încrederea și pentru a proteja confidențialitatea utilizatorilor. în interacțiunile AI.”

Kaveckyte a analizat practicile de colectare a datelor ChatGPT, de exemplu, și a dezvoltat o listă de potențiale defecte: a colectat o cantitate masivă de date personale pentru a-și antrena modelele, dar este posibil să nu fi avut o bază legală pentru a face acest lucru; nu a notificat toate persoanele ale căror date au fost folosite pentru a antrena modelul AI; nu este întotdeauna exactă; și îi lipsesc instrumente eficiente de verificare a vârstei pentru a preveni utilizarea acestuia de către copiii sub 13 ani.

Alături de aceste probleme, alți experți sunt îngrijorați că există mai multe probleme de bază pe care LLM-urile trebuie să le depășească încă – și anume securitatea datelor colectate și stocate de AI, furtul de proprietate intelectuală și confidențialitatea datelor.

„Pentru ca un spital sau o bancă să poată folosi LLM-urile, trebuie să rezolvăm (proprietatea intelectuală), securitatea (și) problemele de confidențialitate”, a spus Siddharth de la Turing. „Există soluții de inginerie bune pentru unele dintre acestea. Și cred că acestea se vor rezolva, dar acestea trebuie rezolvate pentru a putea fi folosite în întreprinderi. Companiile nu doresc să folosească un LLM într-un context în care utilizează datele companiei pentru a ajuta la furnizarea de rezultate mai bune unui concurent.”

Nu este surprinzător că o serie de națiuni și agenții guvernamentale de pe tot globul au lansat eforturi pentru a face față instrumentelor AI, China fiind cea mai proactivă de până acum. Printre aceste eforturi:

Drepturi de autor Cititi mai multe informatii interesante mai jos!


Va invit sa cititi si articolele de mai jos pe langa acestea care sunt cele mai recente

Lasa un comentariu