Apple a creat un instrument de imagine AI care vă permite să faceți modificări prin descrierea acestora

Cercetătorii Apple a lansat un nou model care le permite utilizatorilor să descrie într-un limbaj simplu ceea ce doresc să schimbe într-o fotografie fără a atinge vreodată software-ul de editare foto.

Modelul MGIE, la care Apple a lucrat cu Universitatea din California, Santa Barbara, poate decupa, redimensiona, răsturna și adăuga filtre la imagini prin intermediul solicitărilor de text.

MGIE, care înseamnă MLLM-Guided Image Editing, poate fi aplicat la sarcini simple și mai complexe de editare a imaginii, cum ar fi modificarea anumitor obiecte dintr-o fotografie pentru a le face să aibă o formă diferită sau să devină mai strălucitoare. Modelul îmbină două utilizări diferite ale modelelor de limbaj multimodal. În primul rând, învață cum să interpreteze solicitările utilizatorului. Apoi „își imaginează” cum ar arăta editarea (a cere un cer mai albastru într-o fotografie devine creșterea luminozității porțiunii de cer a unei imagini, de exemplu).

Când editează o fotografie cu MGIE, utilizatorii trebuie doar să introducă ceea ce doresc să schimbe despre imagine. Lucrarea a folosit exemplul de editare a unei imagini cu o pizza pepperoni. Tastând mesajul „fă-l mai sănătos” se adaugă toppinguri de legume. O fotografie cu tigri din Sahara pare întunecată, dar după ce i-a spus modelului „să adauge mai mult contrast pentru a simula mai multă lumină”, imaginea pare mai strălucitoare.

Captură de ecran a lucrării MGIE.
Imagine: Apple

„În loc de îndrumări scurte, dar ambigue, MGIE derivă intenția vizuală explicită și duce la o editare rezonabilă a imaginilor. Efectuăm studii ample din diverse aspecte de editare și demonstrăm că MGIE nostru îmbunătățește eficient performanța, menținând în același timp eficiența competitivă. De asemenea, credem că cadrul ghidat de MLLM poate contribui la cercetarea viitoare privind viziunea și limbajul”, au spus cercetătorii în lucrare.

Apple a făcut MGIE disponibil prin GitHub pentru descărcare, dar a lansat și o demonstrație web pe Hugging Face Spaces, rapoarte VentureBeat. Compania nu a spus care sunt planurile sale pentru model dincolo de cercetare.

Unele platforme de generare de imagini, cum ar fi DALL-E 3 de la OpenAI, pot efectua sarcini simple de editare a fotografiilor pe imaginile pe care le creează prin introducerea textului. Creatorul Photoshop Adobe, la care se adresează majoritatea oamenilor pentru editarea imaginilor, are și propriul model de editare AI. Modelul său Firefly AI stimulează umplerea generativă, care adaugă fundaluri generate fotografiilor.

Citeste si articolele de mai jos

Lasa un comentariu