Când cercetători de la Texas A&M, University of Texas și Purdue au început să investigheze efectele datelor de calitate îndoielnică asupra modelelor lingvistice mari, au plecat de la o observație cunoscută: consumul repetat de conținut online superficial afectează atenția și memoria oamenilor. Au transpus analogia într-o ipoteză formală, numind-o ipoteza „LLM brain rot”, care afirmă că antrenamentul continuu al unui model pe texte de slabă calitate poate conduce la un declin persistent al „abilităților cognitive” ale modelului.
Ideea nu e complet nouă, în psihologia mediatică există studii care leagă supraexpunerea la conținut trivial de probleme de concentrare, dar aplicarea ei la modelele lingvistice este mai puțin explorată. Pentru a o testa, cercetătorii au analizat un volum mare de date de pe HuggingFace: un corpus de 100 de milioane de tweet-uri. Provocarea principală a fost definirea a ceea ce înseamnă „junk web text” versus conținut de calitate, pentru că astfel de etichete nu pot fi puse simplist. Astfel, au construit două tipuri de seturi de date considerate junk, bazate pe măsurători diferite.
Primul set junk a fost alcătuit din tweet-uri cu niveluri ridicate de engagement, like-uri, retweet-uri, reply-uri, quote-uri, și cu lungime redusă. Logica: tweet-urile scurte și foarte populare tind să maximizeze angajamentul într-un mod mai degrabă trivial, adică potențial „dependențial” pentru utilizator. Al doilea set junk s-a bazat pe studii de marketing și evaluări semantice: au folosit un prompt complex cu GPT-4o pentru a extrage tweet-uri care tratează subiecte superficiale, cum ar fi teorii ale conspirației, afirmații exagerate sau conținut de lifestyle fără substanță, sau care folosesc un stil menit să capteze atenția, titluri senzaționale, clickbait sau termeni declanșatori. Pentru a evalua eficiența filtrului automat, au comparat o eșantionare aleatorie din clasificările modelului cu evaluările a trei studenți la master; concordanța a fost de aproximativ 76%.
Demersul arată cât de complicat este să măsori calitatea datelor: chiar și definițiile inspirate din comportamentul uman sau din marketing implică judecăți, iar instrumentele automate nu sunt infailibile. Rămâne de clarificat cât de pronunțate sunt efectele acestui tip de antrenament continuu asupra performanței practice a modelelor, adică dacă „brain rot”-ul pentru LLM se traduce în erori detectabile sau degradare a capacităților pe sarcini utile, și ce măsuri ar fi eficiente pentru a preveni astfel de consecințe.
Autorii au folosit resurse concrete: corpusul de 100 de milioane de tweet-uri de pe HuggingFace și GPT-4o pentru clasificare, iar testarea umană a implicat trei studenți la master, cu o rată de concordanță de 76%. Ce implicații are asta pentru antrenarea viitoare a modelelor? În practică, sugerează necesitatea unor filtre de calitate mai nuanțate și a unor metrici care să nu confunde engagementul cu valoarea informației.
Acum, o întrebare pentru tine: ce crezi că ar trebui să aibă greutatea cea mai mare când antrenăm modele de limbaj, popularitatea unui text sau substanța lui?

Fii primul care comentează