Noile modele AI reduc acuratețea SEO: recomandările lui David Bell de la Previsible

De ceva vreme, evoluția modelelor AI părea liniară: o versiune nouă însemna performanțe mai bune. Previsible, compania cofondată de David Bell, a publicat însă un benchmark care contestă această idee, arătând că versiunile flagship recente ale unor LLM-uri au înregistrat scăderi de acuratețe la sarcini SEO uzuale. Testele, aplicate pe modele precum Claude Opus 4.5, Gemini 3 Pro și ChatGPT-5.1 Thinking, au fost realizate de o echipă specializată în SEO tehnic și strategie, iar datasetul include un set de probe în care aproape un sfert din întrebări vizau audituri tehnice și chestiuni strategice.

Rezultatele sunt neașteptate: Claude Opus 4.5 a înregistrat 76%, față de 84% în versiunea 4.1; Gemini 3 Pro a obținut 73%, în scădere cu aproximativ 9% față de versiunea 2.5 Pro testată anterior; iar ChatGPT-5.1 Thinking a atins 77%, cu 6% sub nivelul GPT-5. Concluzia posibilă e că un increment numeric nu garantează performanță superioară pentru toate tipurile de taskuri. Cauza nu pare a fi un bug, ci o realiniere a priorităților: noile arhitecturi sunt calibrate pentru raționament aprofundat și fluxuri agentice, nu pentru răspunsuri scurte și foarte precise.

Analiza slăbiciunilor arată că modelele recente pierd teren când li se solicită răspunsuri directe și tehnice. Ele tind să aplice un raționament de tip System 2, introducând complexitate acolo unde problema e simplă. De asemenea, arhitecturile noi preferă contexte mai largi, favorizând corpusuri extinse sau cod sursă în locul fragmentelor scurte. Pe de altă parte, politici de siguranță mai stricte conduc uneori la refuzuri în fața unor cereri de audit, când modelul interpretează eronat o potențială amenințare. Toate acestea au fost catalogate ca agentic gap: modele care aspiră să acționeze ca agenți autonomi, dar care pentru sarcini de logică directă suferă din cauza unei „supraîncărcări” de gândire.

Implicația practică e clară: organizațiile care au migrat la cele mai noi API-uri pot plăti mai mult și primi rezultate mai slabe la taskuri SEO standard. Recomandarea experților este să abandonezi promptingul brut și să construiești infrastructuri care să orienteze modelul. În loc să folosești fereastra de chat pentru muncă repetitivă, mută operațiunile în containere contextuale precum Custom GPTs de la OpenAI, Claude Projects de la Anthropic sau Gemini Gems de la Google. Trebuie încărcat contextul esențial: ghiduri de brand, date istorice de performanță și constrângeri metodologice, o versiune light de RAG care „îngheață” fundamentele înainte ca modelul să înceapă să raționeze.

Pentru verificări binare și audituri tehnice, recomandarea este folosirea modelelor mai stabile sau a modelelor „înghețate” și special antrenate pe reguli stricte. Modelele de tip Thinking pot fi supraîncărcate pentru taskuri care cer validări rapide, precum verificarea codului de stare sau validarea schema. Prin urmare, uneori un downgrade înseamnă un upgrade: modele mai vechi, precum Claude 4.1 sau GPT-5, și versiuni stabile ca GPT-4o ori Claude 3.5 Sonnet pot oferi rezultate mai consistente pentru logică directă. În plus, fine-tuningul pe reguli specifice companiei rămâne o soluție solidă pentru audituri tehnice.

Această schimbare de paradigmă nu elimină rolul oamenilor în SEO, ci îl transformă. Specialiștii trebuie să devină arhitecți de sisteme AI, integrând modelele în fluxuri de lucru și aplicând judecata umană pentru a corecta și ghida outputurile. Așteptarea ca un singur prompt să rezolve o strategie complexă nu mai este realistă. Performanța reală provine din design: constrângeri clare, contexte bine preîncărcate și verificări umane precise pentru a compensa derapajele de raționament.

David Bell, consultant enterprise SEO și cofondator Previsible, semnalează aceste evoluții bazat pe experiența cu branduri precum Yelp și Atlassian. Observațiile sale scot în evidență o decizie pe care echipele digitale trebuie s-o ia: să investească în infrastructură AI și în competențele necesare sau să accepte degradarea rezultatelor la sarcini esențiale.

Claude Opus 4.5 a obținut 76% în benchmark. Această valoare subliniază tensiunea dintre modele optimizate pentru raționament complex și nevoia practică de răspunsuri clare la întrebări tehnice; preferința pentru containere contextuale și modele „înghețate” izvorăște din această tensiune. Istoric, fiecare salt arhitectural în AI a adus compromisuri similare, iar soluțiile practice implică adesea combinarea unor modele diferite și un RAG controlat. Crezi că echipa ta e pregătită să reconstruiască fluxurile SEO în jurul unor containere contextuale și modele mixte?

Fii primul care comentează

Lasă un răspuns

Adresa ta de email nu va fi publicată.


*