De ce majoritatea benchmark-urilor AI ne spun atât de puțin

Anthropic și Inflection AI au lansat modele AI generative noi pe care le consideră a fi de top în industrie. Cu toate acestea, există o criză de evaluare în industria AI, deoarece benchmark-urile utilizate pentru a măsura performanța modelelor pot fi inadecvate sau ne-reprezentative pentru majoritatea utilizatorilor. Există erori și limitări în benchmark-uri precum MMLU și HellaSwag, iar remedierea lor ar necesita implicație umană. Cu toate acestea, unii experți consideră că testarea modelelor ar trebui să se concentreze pe impactul lor în contextul real și dacă acestea sunt benefice pentru utilizatori. Este esențial să reevaluăm standardele folosite pentru a evalua modelele AI generative.

Marți, startup-ul Anthropic a lansat o familie de modele AI generative despre care susține că obțin cea mai bună performanță din clasă. La doar câteva zile mai târziu, rivalul Inflection AI a dezvăluit un model despre care, afirmă, este aproape de a se potrivi cu unele dintre cele mai capabile modele de acolo, inclusiv GPT-4 de la OpenAI, în calitate.

Anthropic și Inflection nu sunt în niciun caz primele firme de inteligență artificială care susțin că modelele lor au întâmpinat sau învins concurența printr-o măsură obiectivă. Google a susținut același lucru cu modelele sale Gemini la lansarea lor, iar OpenAI a spus asta despre GPT-4 și predecesorii săi, GPT-3, GPT-2 și GPT-1. Lista continuă.

Dar despre ce măsurători vorbesc? Când un furnizor spune că un model atinge performanță sau calitate de ultimă generație, ce înseamnă asta, exact? Poate mai la obiect: va fi un model care din punct de vedere tehnic „performanță” mai bine decât un alt model de fapt simt îmbunătățit într-un mod tangibil?

La ultima întrebare, nu este probabil.

Motivul – sau mai degrabă, problema – constă în reperele pe care companiile AI le folosesc pentru a cuantifica punctele forte – și punctele slabe ale unui model.

Măsuri ezoterice

Cele mai frecvent utilizate repere astăzi pentru modelele AI – în special modelele bazate pe chatbot, cum ar fi ChatGPT de la OpenAI și Claude de la Anthropic – fac o treabă proastă în a surprinde modul în care persoana obișnuită interacționează cu modelele testate. De exemplu, un punct de referință citat de Anthropic în anunțul său recent, GPQA („A Graduate-Level Google-Proof Q&A Benchmark”), conține sute de întrebări la nivel de doctorat în biologie, fizică și chimie – cu toate acestea, majoritatea oamenilor folosesc chatbot-uri pentru sarcini precum să răspundă la e-mailuri, să scrie scrisori de intenție și vorbind despre sentimentele lor.

Jesse Dodge, om de știință la Institutul Allen pentru AI, organizația nonprofit de cercetare AI, spune că industria a ajuns la o „criză de evaluare”.

„Evaluările de referință sunt de obicei statice și se concentrează îndeaproape pe evaluarea unei singure capacități, cum ar fi actualitatea unui model într-un singur domeniu sau capacitatea sa de a rezolva întrebări cu răspunsuri multiple de raționament matematic”, a spus Dodge pentru TechCrunch într-un interviu. „Multe criterii de referință utilizate pentru evaluare au mai mult de trei ani, de când sistemele AI erau în mare parte folosite doar pentru cercetare și nu aveau mulți utilizatori reali. În plus, oamenii folosesc inteligența artificială generativă în multe feluri – sunt foarte creativi.”

Valori greșite

Nu este că cele mai utilizate benchmark-uri sunt total inutile. Fără îndoială, cineva pune întrebări la matematică la nivel de doctorat ChatGPT. Cu toate acestea, pe măsură ce modelele AI generative sunt din ce în ce mai poziționate ca sisteme de piață de masă, „face-toate”, vechile benchmark-uri devin din ce în ce mai puțin aplicabile.

David Widder, cercetător postdoctoral la Cornell, care studiază AI și etica, observă că multe dintre testele comune de referință pentru abilități – de la rezolvarea problemelor de matematică la nivel de școală până la identificarea dacă o propoziție conține un anacronism – nu vor fi niciodată relevante pentru majoritatea utilizatorilor.

„Sistemele AI mai vechi au fost adesea construite pentru a rezolva o anumită problemă într-un context (de exemplu, sisteme medicale de expertiză AI), făcând mai posibilă o înțelegere profundă contextuală a ceea ce constituie o performanță bună în acel context special”, a spus Widder pentru TechCrunch. „Deoarece sistemele sunt din ce în ce mai văzute ca „scop general”, acest lucru este mai puțin posibil, așa că vedem din ce în ce mai mult un accent pe testarea modelelor pe o varietate de criterii de referință în diferite domenii.”

Erori și alte defecte

Lăsând la o parte nealinierea cu cazurile de utilizare, există întrebări dacă unele benchmark-uri măsoară corect ceea ce pretind să măsoare.

Un analiză de HellaSwag, un test conceput pentru a evalua raționamentul de bun simț în modele, a constatat că mai mult de o treime dintre întrebările testului conțineau greșeli de scriere și scris „nesens”. În altă parte, MMLU (prescurtare de la „Massive Multitask Language Understanding”), un punct de referință care a fost indicat de furnizori, inclusiv Google, OpenAI și Anthropic, ca dovadă că modelele lor pot argumenta prin probleme de logică, pune întrebări care pot fi rezolvate prin memorare.

HellaSwag

Întrebări de testare din benchmarkul HellaSwag.

„(Reperele precum MMLU sunt) mai mult despre memorarea și asocierea a două cuvinte cheie împreună”, a spus Widder. „Pot găsi un articol (relevant) destul de repede și să răspund la întrebare, dar asta nu înseamnă că înțeleg mecanismul cauzal sau că aș putea folosi o înțelegere a acestui mecanism cauzal pentru a raționa și a rezolva probleme noi și complexe în contexte neprevăzute. . Nici un model nu poate.”

Repararea a ce s-a stricat

Deci benchmark-urile sunt rupte. Dar pot fi remediate?

Dodge crede că da – cu mai multă implicare umană.

„Calea corectă de urmat, aici, este o combinație de criterii de evaluare cu evaluare umană”, a spus ea, „promiterea unui model cu o interogare reală a utilizatorului și apoi angajarea unei persoane pentru a evalua cât de bun este răspunsul.”

În ceea ce privește Widder, el este mai puțin optimist decât referințele de astăzi – chiar și cu remedieri pentru erorile mai evidente, cum ar fi greșelile de scriere – pot fi îmbunătățite până la punctul în care ar fi informative pentru marea majoritate a utilizatorilor de modele AI generative. În schimb, el consideră că testele modelelor ar trebui să se concentreze pe impactul în aval al acestor modele și dacă impactul, bun sau rău, este perceput ca fiind de dorit pentru cei afectați.

„M-aș întreba pentru ce obiective contextuale specifice vrem să poată fi utilizate modelele AI și aș evalua dacă vor avea – sau sunt – de succes în astfel de contexte”, a spus el. „Și sperăm că, de asemenea, acest proces implică evaluarea dacă ar trebui să folosim AI în astfel de contexte.”

Va invit sa cititi si articolele de mai jos pe langa acestea care sunt cele mai recente
Why most AI benchmarks tell us so little

Lasa un comentariu