OpenAI introduce GPT-5.2, care obține rezultate superioare la benchmarkuri în comparație cu Gemini 3 Pro și Claude Opus 4.5

De la primele reţele neuronale care au captat atenţia cercetătorilor până la actuala cursă dintre giganţii tehnologici, anunţurile de lansări de modele apar din ce în ce mai frecvent şi zgomotos. OpenAI a făcut public GPT-5.2, o versiune care urmează două upgrade-uri majore din acest an şi care a fost prezentată atât în comunicate, cât şi la o sesiune de presă, în contextul competiţiei cu Google şi al celorlalţi jucători din industrie.

Ritmul schimbărilor a fost accelerat: în august a fost lansat GPT-5, care a introdus un mecanism de rutare între un mod de răspuns instant şi unul de tip raţionament simulat, deşi unii utilizatori au perceput răspunsurile ca fiind reci. În noiembrie, update-ul 5.1 a adus opt opţiuni prestabilite de personalitate şi a urmărit o abordare mai conversaţională. GPT-5.2 apare ca pasul următor, promiţând menţinerea vitezei şi reducerea anumitor erori observate anterior.

Pe site-ul oficial OpenAI nu au fost publicate comparaţii directe cu Gemini 3, chiar dacă momentul lansării pare influenţat de presiunea competitivă generată de anunţurile Google. Blogul oficial pune accent pe progresele faţă de versiunile precedente şi pe un nou benchmark intern denumit GDPval, conceput pentru a evalua activitatea profesională pe 44 de ocupaţii. În timpul briefingului de presă, OpenAI a oferit totuşi cifre comparate cu Gemini 3 Pro şi Claude Opus 4.5, subliniind că dezvoltarea modelului a durat multe luni, deşi momentul lansării are şi o motivaţie strategică.

Datele comunicate sunt specifice: GPT-5.2 Thinking a obţinut 55, 6% la SWE-Bench Pro, un benchmark pentru inginerie software, în timp ce Gemini 3 Pro a înregistrat 43, 3% şi Claude Opus 4.5 52, 0%. Pe GPQA Diamond, orientat spre provocări ştiinţifice la nivel de master, GPT-5.2 a avut 92, 4% faţă de 91, 9% pentru Gemini 3 Pro. OpenAI afirmă că GPT-5.2 Thinking depăşeşte sau egalează profesioniştii umani în 70, 9% din sarcinile din GDPval, comparativ cu 53, 3% pentru Gemini 3 Pro, şi că modelul execută aceleaşi sarcini de peste 11 ori mai rapid şi la sub 1% din costul unui expert uman. De asemenea, responsabilul post-training Max Schwarzer a declarat pentru VentureBeat o scădere cu 38% a cazurilor în care modelul inventează informaţii, în raport cu GPT-5.1.

Persistă totuşi întrebări rezonabile. Companiile îşi pot proiecta benchmark-urile astfel încât rezultatele să le avantajeze, iar evaluarea obiectivă a performanţei în sarcini complexe rămâne un domeniu în dezvoltare. Verificările independente realizate de cercetători externi vor apărea mai târziu şi vor arăta dacă aceste cifre se confirmă în practică. Pentru utilizatorii obişnuiţi ai ChatGPT sau ai altor modele, cel mai probabil se vor vedea îmbunătăţiri treptate: răspunsuri mai naturale, eficienţă sporită la programare şi performanţă mai constantă în sarcini profesionale.

GPT-5.2 a obţinut 55, 6% la SWE-Bench Pro. Această valoare reflectă două teme esenţiale: competiţia între furnizorii de modele şi dependenţa de benchmark-uri pentru a comunica progresele, ambele aspecte subliniind necesitatea unei evaluări independente şi contextualizate. Viteza şi costul declarate ridică întrebări practice despre modul în care companiile vor integra astfel de modele în fluxuri de lucru reale, iar comparaţiile cu Gemini 3 Pro şi Claude Opus 4.5 sugerează că evoluţia e mai degrabă o serie de optimizări decât o revoluţie imediată.

Ce părere ai: aceste cifre şi promisiuni te fac mai încrezător să foloseşti astfel de modele la locul de muncă sau preferi să aştepţi validări independente?

OpenAI introduce GPT-5.2, care obține rezultate superioare la benchmarkuri în comparație cu Gemini 3 Pro și Claude Opus 4.5

Fii primul care comentează

Lasă un răspuns Anulează răspunsul