Alibaba lansează instrument open-source care transformă fotografii în videoclipuri

Alibaba a lansat un model open-source care transformă o singură fotografie și o probă audio într-un personaj digital animat, capabil să vorbească, să cânte sau să execute mișcări. Noutatea, numită Wan2.2-S2V, este destinată creatorilor de conținut și cercetătorilor care vor un instrument accesibil pentru a genera avatare realiste în diverse cadre vizuale.

Wan2.2-S2V face parte din seria Wan2.2 de generare video a Alibaba și, prin deschiderea codului sursă, oferă dezvoltatorilor un sistem care poate anima portrete în perspective variate: prim-plan, jumătate de corp sau corp întreg. Tehnologia este ghidată de audio, ceea ce înseamnă că sincronizarea dintre vorbire și mișcare este realizată cu atenție, pentru rezultate credibile. Modelul gestionează scene cu mai multe personaje și poate urma instrucțiuni care cer gesturi specifice sau includ elemente de mediu.

Potrivit echipei, aceste capabilități permit producerea de materiale diverse, de la scurte clipuri pentru rețele sociale până la proiecte de tip filmic mai lungi. Utilizatorii pot alege rezoluții de ieșire de 480p sau 720p, ceea ce menține un echilibru între calitate și cerințe de calcul, un avantaj pentru creatori independenți care nu au acces la echipamente foarte puternice, dar util și pentru echipe profesionale ce lucrează proiecte ample.

Cercetătorii din spatele modelului au construit un set de date audio-vizual axat pe scenarii de film și televiziune și au folosit antrenament multi-rezoluție pentru a obține rezultate bune atât pentru formate verticale scurte, cât și pentru formate largi tradiționale. Totodată, Wan2.2-S2V aplică un proces de compresie a cadrelor care condensă istoricul video pe perioade lungi într-o reprezentare latentă unică. Acest procedeu reduce costurile de calcul și păstrează coerența pe clipuri extinse, o provocare comună pentru multe sisteme de generare video. Stabilizarea secvențelor pe durate mai lungi ar putea facilita astfel producții animate mai ambițioase, mai puțin „clip salvat, clip refăcut”, mai mult clip gata de folosit.

Lansarea urmează alte versiuni open-source din seria Wan, precum Wan2.1 din februarie și Wan2.2 din iulie, iar descărcările modelelor Wan de pe platforme precum Hugging Face și ModelScope au depășit deja 6, 9 milioane. Wan2.2-S2V poate fi accesat acum prin Hugging Face, GitHub și ModelScope.

Ce părere ai despre un instrument care poate anima o fotografie după o probă audio?

amalia spune:

1 septembrie 2025 la 08:07

hm, deci pot să-mi fac selfie care să-mi cânte hiturile din duș? lol

Răspunde
tudor_moni85 spune:

2 septembrie 2025 la 14:03

hm, iar tooluri noi… sa nu se piardă joburi, sper; eu nu prea stiu tech, dar suna interesant, ms.

Răspunde
sorin_gabi_suceava spune:

10 septembrie 2025 la 04:18

hm, deci poți face film din poză? pai dacă merge pe telefoane vechi, sa fie bine, eu am doar un nokia vechi lol

Răspunde

Alibaba lansează instrument open-source care transformă fotografii în videoclipuri

3 Comentarii

Lasă un răspuns Anulează răspunsul