Când ai observat prima oară că un rezumat creat de Google te direcționa către site-uri suspecte, probabil ți-ai ridicat din sprânceană. Tema tratează modul în care Google își ancorează răspunsurile AI, parțial dezvăluit în Memorandumul din dosarul antitrust, și arată de ce unele AI Overviews au prezentat pagini de calitate îndoielnică.
De la începuturile internetului, linkurile au fost valuta reputației: cu cât o pagină primea mai multe legături, cu atât câștiga mai multă „încredere” din partea motoarelor de căutare. În ultimii ani, Google a introdus tot mai mult modele bazate pe înțelegere semantică și rețele neuronale pentru a identifica documente relevante, chiar și când interogarea nu conține toate cuvintele cheie. Memorandumul din procesul antitrust oferă detalii tehnice care clarifică o componentă numită FastSearch și modelul RankEmbed, explicând de ce rezultatele folosite pentru a „ancora” răspunsurile generative nu coincid cu rezultatele clasice din Search.
Fragmentul relevant precizează că, pentru a-și susține modelele Gemini, Google utilizează FastSearch, o tehnologie proprietară care se bazează pe semnalele RankEmbed. FastSearch produce rapid rezultate web sintetizate și ordonate, pe care modelul le folosește pentru a genera un răspuns ancorat. Diferența esențială e că FastSearch recuperează mult mai puține documente și face acest lucru mult mai rapid decât Search, dar calitatea este inferioară comparativ cu rezultatele complet ordonate ale motorului de căutare obișnuit. Pe românește: e ca și când ai folosi un rezumat rapid în loc să recitești cartea, eficient, dar lipsit de nuanțe.
Ryan Jones, fondatorul SERPrecon, a remarcat acest pasaj și a explicat implicațiile practice. Potrivit lui, pentru „grounding” Google nu aplică exact același algoritm ca pentru Search. Criteriul principal pare a fi viteza; nu toate semnalele de calitate sunt calculate pentru FastSearch, iar aceasta ar justifica apariția unor site-uri de tip spam sau chiar a unor pagini penalizate în rezultatele generate de AI în versiunile timpurii. Jones afirmă, de asemenea, că linkurile par să nu aibă rolul central din ranking-ul tradițional, deoarece FastSearch se bazează mai mult pe relevanța semantică.
Ce reprezintă, mai precis, FastSearch? Memorandumul arată că FastSearch produce rapid rezultate organice limitate pentru anumite scenarii, precum ancorarea LLM-urilor, și se bazează în principal pe modelul RankEmbed. Iar RankEmbed, conform documentului, este un model de deep learning care detectează tipare complexe în volume mari de date. Așa cum explică memorandumul, astfel de modele nu „înțeleg” în sens uman, ci recunosc corelații și semnificații semantice între termeni și documente.
RankEmbed folosește date denumite „user-side”, adică informații provenite din log-urile de căutare și scoruri produse de evaluatori umani. Memorandumul menționează explicit că modelul este antrenat pe un procent din log-urile de căutare (exemplul citat este un anumit procent din 70 de zile de log-uri), combinate cu notările umane folosite pentru a evalua calitatea rezultatelor organice. Aceste date includ detalii despre interogare, termeni relevanți extrași din interogare și paginile rezultate. În plus, RankEmbed a fost proiectat să ofere performanțe bune chiar dacă e antrenat pe doar 1/100 din datele utilizate pentru modelele de ranking anterioare, îmbunătățind în special răspunsurile la interogări rare sau foarte specifice.
Un aspect important este tipul datelor: modelul combină click-and-query data cu scorurile evaluatorilor umani. Evaluatorii pot nota doar o mică parte din miliardele sau trilioanele de pagini indexate, astfel că inputul uman funcționează ca etichete de calitate pentru antrenament. Aceste exemple etichetate ajută modelul să învețe pattern-uri care diferențiază o pagină valoroasă de una mai puțin relevantă.
Din ce rezultă, varianta FastSearch pare orientată spre viteză și potrivire semantică, nu spre semnale tradiționale de autoritate bazate pe linkuri. O interpretare plauzibilă, sugerată de Jones, este că Google utilizează mai multe indexuri: unul mai cuprinzător pentru Search și un altul dedicat FastSearch, compus poate din site-uri cu trafic frecvent. Acest index mai restrâns ar reflecta datele RankEmbed, adică o combinație de comportament al utilizatorilor și exemple evaluate manual.
Aceste detalii schimbă puțin perspectiva asupra modului în care motoarele de căutare evoluează: trecerea către modele dependente de învățare automată și date de interacțiune poate diminua importanța semnalelor tradiționale precum linkurile. Aceasta explică cum, în fazele inițiale ale integrării AI, sistemele pot livra rezultate mai rapide, dar cu incertitudini privind calitatea. Totodată, înțelegerea modului de funcționare a FastSearch și RankEmbed oferă indicii despre dezbaterile din procesul antitrust privind accesul la datele necesare concurenților pentru a crea produse competitive.
Memorandumul evidențiază clar legătura dintre FastSearch, RankEmbed și folosirea datelor de căutare și a evaluărilor umane pentru antrenarea acestor modele. Elemente precum viteza, selecția restrânsă a documentelor, dependența de datele utilizatorilor și etichetarea manuală explică comportamentul observat în AI Overviews. Rămâne de văzut cum vor evolua aceste mecanisme: îmbunătățirile calității pot apărea prin recalibrarea semnalelor, extinderea seturilor de antrenament sau modificări ale arhitecturii de indexare.
Memorandumul menționează RankEmbed, FastSearch și datele din 70 de zile de log-uri; aceste componente indică direcția tehnică a schimbării în modul în care Google fundamentează răspunsurile AI. Cum va afecta asta vizibilitatea site-urilor care se bazează pe linkuri pentru autoritate, sau ce înseamnă pentru transparența rezultatelor AI, rămâne o întrebare deschisă pentru industrie și reglementatori. Tu ce crezi: vor reuși actualizările tehnice să împace viteza cu calitatea astfel încât să reducă apariția paginilor irelevante în rezumatele AI?
da, și eu am observat chestia asta, pare ciudat dar, practic, au făcut un fel de “scurtătură” ca să scoată răspunsul rapid — gen folosești un rezumat în loc de carte. nu mi-e clar dacă e doar grabă sau o alegere intenționată ca să bage rezultate mai slabe. plus, faptul că RankEmbed folosește log-uri de căutare e important: aia înseamnă că paginile cu trafic sau click-uri repetate pot fi ridicate, chiar dacă nu-s grozave. deci site-urile spam cu vizite fake sau care sunt mereu în top pentru anumite query-uri ar putea ajunge in anchoring, vezi?
mi se pare relevant și că evaluările umane sunt doar un mic eșantion — adică modelul învață din foarte puține etichete umane și din mult comportament, deci erorile se pot amplifica. cred că o soluție plauzibilă e să includă mai multe semnale de calitate (ex: penalizări clare pt pagini deja sancționate, sau semnale de autoritate mai robuste), dar asta merge mai lent și costă.
în plus, chestii tehnice: dacă FastSearch scoate mult mai puține docuri și e optimizat pe viteză, atunci e clar cum apar pagini ciudate — e o problemă de index și de refresh al datelor. cine știe, poate în viitor vor combina output-ul FastSearch cu o verificare suplimentară pe un subset mai curat sau vor recalibra ponderile pentru linkuri vs semantica.
orice soluție serioasă tot cere acces la date istorice și la loguri, deci reglementatorii pot avea un rol aici — dacă impun audit extern sau acces la anumite date, concurența ar putea reproduse mai bine. pe scurt: viteza vs calitate — momentan bate viteza, dar ar putea fi echilibrat cu niște schimbări, daca vor. nu prea-mi place ideea că un rezumat te trimite la un site dubios, dar meh, vedem ce fac.