Google a actualizat discret documentația referitoare la fetcherele declanșate de utilizator și, printre schimbări, apare Google NotebookLM, iar acest detaliu mic spune ceva important: NotebookLM nu respectă regulile din robots.txt. În trecut, fișierele robots.txt au funcţionat ca un semnal pentru roboți, permițând proprietarilor de site-uri să decidă ce poate fi accesat automat. Astăzi, pe măsură ce instrumentele AI devin tot mai răspândite și capabile să „citească” pagini la solicitarea utilizatorilor, această separare devine relevantă pentru editorialiști, dezvoltatori și administratori de site-uri.
NotebookLM este un instrument AI de la Google care le dă utilizatorilor posibilitatea să trimită un URL; apoi tool-ul procesează conținutul paginii, răspunde la întrebări pe baza textului respectiv și generează rezumate. De asemenea, poate crea automat o hartă mentală interactivă care structurează temele extrase de pe site și evidențiază concluzii sau puncte cheie. Această funcționalitate e utilă pentru cercetare rapidă sau sinteze, dar ridică și întrebări legate de controlul conținutului online.
Documentația Google despre „User-Triggered Fetchers” precizează că acești agenți web sunt declanșați de acțiunea utilizatorului și, în mod implicit, ignoră regulile din robots.txt. Practic, pentru Google aceste fetchere nu sunt crawleri tradiționali care indexează la scară largă, ci fac solicitări specifice la indicația unui utilizator care dorește să interacționeze cu pagina respectivă prin NotebookLM. Asta înseamnă că, chiar dacă un publisher a blocat accesul roboților prin robots.txt, un utilizator care folosește NotebookLM poate în continuare să trimită pagina și să primească un rezumat sau răspunsuri generate.
Pentru proprietarii de site-uri care nu doresc accesul NotebookLM, există soluții practice. Google folosește user agent-ul Google-NotebookLM când extrage conținut, astfel că acel agent poate fi blocat la nivel de server. Pe site-urile WordPress, de exemplu, un plugin de securitate precum Wordfence poate adăuga o regulă personalizată care respinge vizitatorii ce raportează user agent-ul Google-NotebookLM. O variantă mai tehnică implică modificarea fișierului .htaccess: dacă serverul rulează Apache și modulul mod_rewrite este activ, se poate introduce o regulă care detectează user agent-ul Google-NotebookLM și returnează un cod de acces interzis. Exemplul de regulă ilustrează cum se poate realiza asta direct în .htaccess, folosind RewriteEngine On și o condiție pe HTTP_USER_AGENT pentru Google-NotebookLM.
Discuția generată de această actualizare vizează echilibrul dintre utilitatea instrumentelor AI la cerere și dreptul editorilor de a controla modul și cine le folosește conținutul. Robots.txt a fost conceput pentru a gestiona accesul automatizat clasic; când solicitările vin în mod explicit de la utilizatori prin servicii terțe, regulile se schimbă. Practic, dacă dorești ca un text să nu fie utilizat de NotebookLM, trebuie să acționezi la nivel de server sau aplicație, nu doar să pui un fișier robots.txt. Aceasta aduce în discuție și aspecte mai largi despre transparența modului în care platformele AI accesează și prelucrează informații externe, precum și instrumentele tehnice pe care publisherii le pot folosi pentru a-și proteja conținutul.
Google-NotebookLM este menționat explicit în documentație, iar blocarea poate fi realizată prin detectarea user agent-ului Google-NotebookLM, fie cu un plugin de securitate (de exemplu Wordfence), fie prin reguli .htaccess când serverul suportă mod_rewrite. Aceste detalii concrete, numele user agent-ului, soluțiile practice pentru WordPress și regula .htaccess, sunt utile pentru oricine administrează site-uri și vrea să controleze accesul. Ce părere ai: dorești să blochezi accesul NotebookLM pe site-ul tău sau crezi că astfel de instrumente ar trebui permise să acceseze conținut la cererea utilizatorilor?
Fii primul care comentează