BlockRank de la Google DeepMind: algoritm performant pentru căutări semantice la scară largă

Noutatea despre un algoritm de căutare creat la Google DeepMind ajunge acum la cititori: cercetătorii au prezentat BlockRank, o tehnică de ordonare a paginilor web care face mai accesibile căutările semantice avansate pentru organizații și utilizatori individuali, iar testele preliminare indică rezultate promițătoare pe seturi de date cunoscute. Istoric, motoarele de căutare au evoluat de la potriviri simple de cuvinte la modele care înțeleg contextul; BlockRank reprezintă un pas înainte în această direcție, promițând eficiență acolo unde modelele mari consumau resurse excesive.

Lucrarea introduce In-Context Ranking, conceptul prin care un model de limbaj mare primește instrucțiuni, documentele candidate și interogarea, apoi clasează paginile pe baza înțelegerii contextului. Această metodă a fost investigată încă din 2024 și a arătat că ICR poate egala sisteme dedicate de recuperare a informațiilor, dar avea un impediment major: pe măsură ce numărul documentelor crește, calculul devine mult mai lent. Cauza este mecanismul de atenție al acestor modele: ele analizează relațiile dintre toate cuvintele din toate documentele, iar costul care crește exponențial devine nepractic pentru colecții mari.

BlockRank rezolvă exact această problemă de eficiență. Autorii studiului au examinat modul în care modelul folosește atenția în timpul ICR și au identificat două tipare utile. Primul este ceea ce au numit inter-document block sparsity: în loc să compare fiecare document cu toate celelalte, modelul tinde să se concentreze mai mult pe fiecare document individual. Plecând de aici, cercetătorii au modificat felul în care modelul procesează intrarea, făcându-l să trateze documentele separat, dar menținând compararea fiecărui document cu interogarea. Aceasta elimină comparațiile inutile între documente și păstrează esențialul: potrivirea documentului cu întrebarea. Al doilea pattern observat este query-document block relevance: nu toate cuvintele din întrebare au aceeași importanță; anumite părți, precum termeni-cheie sau semne de punctuație care semnalează intenția, atrag atenția modelului către anumite documente. Cercetătorii au folosit această corelație internă pentru a antrena modelul să valorifice aceste indicii în clasificarea relevanței.

Îmbinarea celor două idei a dus la reproiectarea mecanismului de atenție și la un antrenament adaptat, rezultând BlockRank: o versiune scalabilă a In-Context Retrieval care reduce comparațiile inutile și încurajează concentrarea pe semnalele relevante din întrebare.

Pentru a evalua performanța, autorii au testat BlockRank pe trei benchmark-uri importante: BEIR, care cuprinde numeroase sarcini de căutare și întrebări; MS MARCO, construit din interogări reale Bing și pasaje; și Natural Questions, bazat pe întrebări reale de pe Google și pe pasaje din Wikipedia. Folosind un model Mistral de 7 miliarde de parametri, BlockRank a fost comparat cu sisteme puternice precum FIRST, RankZephyr, RankVicuna și un Mistral complet ajustat. Rezultatul: BlockRank a performat la nivelul sau peste aceste sisteme pe toate cele trei seturi, egalând performanța pe MS MARCO și Natural Questions și având o ușoară superioritate pe BEIR. Echipa notează însă că testele s-au efectuat doar pe Mistral-7B, deci concluziile se aplică direct acelui model.

Documentul de cercetare nu menționează implementarea BlockRank în servicii live Google, astfel rămâne speculație dacă va fi integrat în AI Mode, FastSearch sau RankEmbed; descrierile acelor sisteme par diferite față de propunerea BlockRank. Google pare intenționeze să publice BlockRank pe GitHub, dar la momentul redactării nu era disponibil cod.

Cercetătorii subliniază câteva implicații importante: o metodă eficientă de ICR poate face tehnici avansate de recuperare semantică mai accesibile celor cu resurse reduse, poate accelera cercetarea și poate îmbunătăți identificarea rapidă a informațiilor relevante în educație sau luarea deciziilor. Totodată, eficiența sporită implică și consum energetic redus pentru aplicațiile care efectuează multe operațiuni de căutare, ceea ce are legătură cu sustenabilitatea infrastructurilor AI. Pe scurt, BlockRank ar putea permite sisteme utile chiar și cu modele mai mici sau în medii cu resurse limitate.

Acest avans științific nu schimbă imediat internetul, dar ridică ștacheta: dacă ideea se confirmă pe mai multe modele și în implementări practice, organizațiile care nu pot rula infrastructuri masive ar putea totuși utiliza ICR de calitate. Rămâne de văzut dacă va ajunge în produsele Google sau în implementări open-source și când va fi publicat codul promis pe GitHub. Pentru specialiști în SEO și editori, rămâne deschisă întrebarea asupra impactului asupra indexării și relevanței, opiniile vor fi diverse, dar dovezile directe de integrare lipsesc deocamdată.

Studiul menționează concret Mistral-7B, BEIR, MS MARCO și Natural Questions și sugerează publicarea pe GitHub. Ce efect crezi că ar avea BlockRank asupra modului în care gestionezi informațiile online?

Fii primul care comentează

Lasă un răspuns

Adresa ta de email nu va fi publicată.


*