Când generarea video întâlnește sunetul sincronizat, apar discuții noi despre cât de aproape ne apropiem de filme realizate de inteligență artificială. Marți, OpenAI a dezvăluit Sora 2, o generație nouă a modelului său de sinteză video care, pentru prima dată la companie, poate produce clipuri cu dialog sincronizat și efecte sonore; odată cu modelul a lansat și o aplicație socială pentru iOS care le permite utilizatorilor să se integreze în clipuri generate de AI printr-o funcție numită cameo. Ideea nu este nouă: laboratoare mari lucrează de ceva vreme în aceeași direcție, în mai, Google a anunțat Veo 3, iar Alibaba a lansat Wan 2.5, însă Sora 2 reprezintă pentru OpenAI un pas semnificativ în această cursă.
Demo-ul oficial prezintă o versiune fotorealistă a CEO-ului OpenAI, Sam Altman, vorbind direct la cameră cu o voce ușor nenaturală, plasat în decoruri imaginare precum o cursă de rațe pe vehicule de jucărie sau o grădină cu ciuperci luminoase. Pe lângă impactul vizual, Sora 2 poate genera fundaluri sonore complexe, vorbire și efecte audio cu un nivel înalt de realism, explică compania. Astfel se reduce oarecum diferența față de modelele competitoare care deja ofereau audio sincronizat, iar faptul că mai multe echipe ating aceleași rezultate indică că tehnologia se maturizează, sau cel puțin imită tot mai bine realitatea.
Din punct de vedere vizual, Sora 2 îmbunătățește coerența între cadre și consistența elementelor vizuale față de versiunea anterioară din februarie 2024. Modelul poate urma instrucțiuni mai complexe pe mai multe scene, menținând o linie narativă coerentă între ele. OpenAI compară lansarea cu un moment GPT-3.5 pentru video, făcând paralela cu avansul calitativ de la modelele de text anterioare la ChatGPT. Analogía sugerează că Sora 2 ar putea deveni un reper în generarea video, similar impactului avut în zona textelor.
Un alt aspect evidențiat este fidelitatea mișcărilor fizice. OpenAI susține că Sora 2 respectă mai bine legile fizicii: poate simula mișcări complexe, precum exerciții gimnastice olimpice sau triplă axel, fără deformări ciudate ale obiectelor sau teleportări nejustificate. Compania admite că modelele video anterioare aveau tendința de a „ocoli” realitatea pentru a îndeplini un prompt, de exemplu, dacă un jucător de baschet rata, mingea apărea dintr-odată în coș. În Sora 2, în schimb, mingea ar trebui să revină de pe panou, ceea ce pare mai degrabă un respect pentru fizică decât magie cinematografică.
Aplicația iOS cu funcția cameo introduce o dimensiune socială: utilizatorii își pot insera propria imagine în clipuri generate de AI. Aceasta ridică întrebări despre autenticitate, utilizare și controlul imaginilor personale, dar și despre modul în care aceste instrumente vor fi folosite în producții video, divertisment sau marketing. Pe de altă parte, industria mai largă explorase deja generarea de audio sincronizat: Veo 3 de la Google și Wan 2.5 de la Alibaba sunt exemple recente, iar apariția Sora 2 arată că tot mai mulți jucători ating aceeași zonă tehnologică.
Privită în perspectivă, Sora 2 nu e doar despre clipuri cu efecte sonore bine integrate; reprezintă un salt în capacitatea modelelor de a respecta coerent scenarii complexe și reguli fizice. Pentru creatorii de conținut, asta poate însemna instrumente mai puternice pentru prototipare rapidă sau producție, iar pentru consumatori, videoclipuri mai convingătoare, uneori greu de diferențiat de realitate. Totuși, odată cu aceste abilități apar și întrebări legate de etică, folosire responsabilă și reguli pentru identificarea conținutului generat de AI.
OpenAI descrie Sora 2 și aplicația iOS ca pași înainte în generarea video cu audio sincronizat. Modelul promite o coerență vizuală îmbunătățită și simulare fizică mai fidelă, iar funcția cameo le permite oamenilor să fie inserați în clipuri AI. Rămâne de văzut cum vor utiliza creatorii și platformele aceste instrumente și ce reguli vor fi adoptate pentru transparență și responsabilitate. Crezi că astfel de clipuri generate de AI ar trebui să fie etichetate clar pe platformele sociale?
Fii primul care comentează