Cursa video generativă a Chinei se încălzește

Luni, Tencent, un gigant chinez al internetului, a dezvăluit o nouă versiune a modelului său de generare video, DynamiCrafter, pe GitHub. Acesta este un semn că marile companii tech din China își concentrează eforturile în spațiul text și imagine-video. DynamiCrafter utilizează difuzia pentru a transforma subtitrările și imaginile statice în videoclipuri de câteva secunde. A doua generație a acestuia produce videoclipuri cu o rezoluție de 640×1024 pixeli. Alte companii chineze, precum ByteDance și Baidu, au lansat, de asemenea, modele proprii de difuzare video. Este așteptat ca aceste videoclipuri generative să devină un punct focal în domeniul inteligenței artificiale, iar mulți operatori de tehnologie investesc resurse în acest domeniu.

Luni, Tencent, gigantul chinez al internetului cunoscut pentru imperiul jocurilor video și aplicația de chat WeChat, dezvăluit o nouă versiune a modelului său de generare video open source DynamiCrafter pe GitHub. Este o reamintire a faptului că unele dintre cele mai mari firme tehnologice din China și-au intensificat în liniște eforturile de a face o adâncime în spațiul text și imagine-video.

Ca și alte instrumente video generative de pe piață, DynamiCrafter folosește metoda de difuzare pentru a transforma subtitrările și imaginile statice în videoclipuri de câteva secunde. Inspirate de fenomenul natural de difuzie în fizică, modelele de difuzie în învățarea automată pot transforma date simple în date mai complexe și mai realiste, similar modului în care particulele se deplasează dintr-o zonă de concentrație mare în alta de concentrație scăzută.

A doua generație de DynamiCrafter produce videoclipuri la o rezoluție de pixeli de 640×1024, o actualizare față de lansarea sa inițială din octombrie, care includea videoclipuri de 320×512. Un academic hârtie publicat de echipa din spatele DynamiCrafter notează că tehnologia sa diferă de cea a concurenților prin faptul că extinde aplicabilitatea tehnicilor de animație a imaginii la „conținut vizual mai general”.

„Ideea cheie este de a utiliza mișcarea anterioară a modelelor de difuzare text-to-video prin încorporarea imaginii în procesul generativ ca ghid”, spune lucrarea. Tehnicile „tradiționale”, în comparație, „se concentrează în principal pe animarea scenelor naturale cu dinamică stocastică (de exemplu, nori și fluide) sau mișcări specifice domeniului (de exemplu, păr uman sau mișcări ale corpului).”

Într-un demo (vezi mai jos) care compară DynamiCrafter, Stable Video Diffusion (lansat în noiembrie) și Pika Labs, recent hyped-up, rezultatul modelului Tencent apare puțin mai animat decât altele. Inevitabil, mostrele alese ar favoriza DynamiCrafter și niciunul dintre modele, după câteva încercări inițiale, nu lasă impresia că AI va putea în curând să producă filme cu drepturi depline.

Cu toate acestea, videoclipurile generative au primit mari speranțe ca următorul punct focal în cursa AI după boom-ul textului și imaginilor generative. Prin urmare, este de așteptat ca startup-urile și operatorii de tehnologie să investească resurse în domeniu. Nu este o excepție în China. Pe lângă Tencent, ByteDance, părintele lui TikTok, Baidu și Alibaba și-au lansat fiecare modelele de difuzare video.

Ambele ByteDance MagicVideo și a lui Baidu UniVG au postat demonstrații pe GitHub, deși niciunul nu pare să fie încă disponibil publicului. La fel ca Tencent, Alibaba și-a creat modelul de generație video VGen sursa deschisao strategie care este din ce în ce mai populară în rândul firmelor chineze de tehnologie care speră să ajungă la comunitatea globală de dezvoltatori.

Va invit sa cititi si articolele de mai jos pe langa acestea care sunt cele mai recente
China’s generative video race heats up

Lasa un comentariu