Alibaba a lansat un model open-source care transformă o singură fotografie și o probă audio într-un personaj digital animat, capabil să vorbească, să cânte sau să execute mișcări. Noutatea, numită Wan2.2-S2V, este destinată creatorilor de conținut și cercetătorilor care vor un instrument accesibil pentru a genera avatare realiste în diverse cadre vizuale.
Wan2.2-S2V face parte din seria Wan2.2 de generare video a Alibaba și, prin deschiderea codului sursă, oferă dezvoltatorilor un sistem care poate anima portrete în perspective variate: prim-plan, jumătate de corp sau corp întreg. Tehnologia este ghidată de audio, ceea ce înseamnă că sincronizarea dintre vorbire și mișcare este realizată cu atenție, pentru rezultate credibile. Modelul gestionează scene cu mai multe personaje și poate urma instrucțiuni care cer gesturi specifice sau includ elemente de mediu.
Potrivit echipei, aceste capabilități permit producerea de materiale diverse, de la scurte clipuri pentru rețele sociale până la proiecte de tip filmic mai lungi. Utilizatorii pot alege rezoluții de ieșire de 480p sau 720p, ceea ce menține un echilibru între calitate și cerințe de calcul, un avantaj pentru creatori independenți care nu au acces la echipamente foarte puternice, dar util și pentru echipe profesionale ce lucrează proiecte ample.
Cercetătorii din spatele modelului au construit un set de date audio-vizual axat pe scenarii de film și televiziune și au folosit antrenament multi-rezoluție pentru a obține rezultate bune atât pentru formate verticale scurte, cât și pentru formate largi tradiționale. Totodată, Wan2.2-S2V aplică un proces de compresie a cadrelor care condensă istoricul video pe perioade lungi într-o reprezentare latentă unică. Acest procedeu reduce costurile de calcul și păstrează coerența pe clipuri extinse, o provocare comună pentru multe sisteme de generare video. Stabilizarea secvențelor pe durate mai lungi ar putea facilita astfel producții animate mai ambițioase, mai puțin „clip salvat, clip refăcut”, mai mult clip gata de folosit.
Lansarea urmează alte versiuni open-source din seria Wan, precum Wan2.1 din februarie și Wan2.2 din iulie, iar descărcările modelelor Wan de pe platforme precum Hugging Face și ModelScope au depășit deja 6, 9 milioane. Wan2.2-S2V poate fi accesat acum prin Hugging Face, GitHub și ModelScope.
Ce părere ai despre un instrument care poate anima o fotografie după o probă audio?

hm, deci pot să-mi fac selfie care să-mi cânte hiturile din duș? lol
hm, iar tooluri noi… sa nu se piardă joburi, sper; eu nu prea stiu tech, dar suna interesant, ms.
hm, deci poți face film din poză? pai dacă merge pe telefoane vechi, sa fie bine, eu am doar un nokia vechi lol