Anthropic: cum Claude 3.5 Haiku creează o busolă internă pentru poziția caracterelor și întreruperile de linie

Când cercetătorii de la Anthropic au evaluat modelul Claude 3.5 Haiku pe o probă simplă, dar revelatoare, decizia unde să insereze un line break într-un text care trebuie să se încadreze într-o lățime fixă, au găsit un rezultat care pare desprins din psihologia percepției: modelul formează intern structuri ce seamănă cu o reprezentare spațială a poziției, ca și cum ar avea o busolă internă pentru caractere. Această observație reaprinde întrebări vechi despre modul în care sistemele simbolice procesează informația, de la primele experimente cu rețele neuronale până la modelele moderne de limbaj.

Experimentul era simplu: îi cereau lui Claude 3.5 Haiku să scrie astfel încât un anumit număr de caractere să încapă pe fiecare linie și să decidă când să pună un line break. Pare banal, însă pentru model înseamnă să țină evidența numărului de caractere deja scrise, să estimeze lungimea următorului cuvânt și să hotărască dacă acesta mai încape pe linia curentă. Concluzia: LLM-ul învață limitele de lățime nu printr-un contor pas cu pas, ci printr-o reprezentare geometrică netedă, o curbă continuă care îi permite să-și localizeze poziția „pe parcurs”. În plus, cercetătorii au identificat ceea ce au numit boundary head, un head de atenție specializat în detectarea momentului apropiat de sfârșitul liniei.

Metoda combină atribuirea importanței (attribution graphs) cu analiza internă a activărilor. Aceste vizualizări arată că modelul coordonează mai multe funcții interne: una care urmărește numărul de caractere, alta care prezice tokenul următor și încă una care semnalează necesitatea unui newline. Boundary head-ul acționează printr-o transformare liniară care „aliniază” curba contorului de caractere cu cea a lungimii maxime a liniei; când cele două se întâlnesc în intervalul țintă, produsul interior crește și atenția se îndreaptă spre inserția unui line break. Pe scurt, decizia finală rezultă din echilibrul între caracteristici care favorizează întreruperea și altele care o amână.

Mai departe, cercetătorii au arătat că aceste reprezentări pot fi perturbate într-un mod similar iluziilor optice la oameni. Ei au introdus simboluri artificiale, precum @@, pentru a testa dacă pot „confunda” acești indicatori interni. Rezultatul: anumite secvențe au reușit să deconecteze atenția unor heads relevante, transformând comportamentul de la a acorda atenție doar pentru newline la a include și acele tokenuri în câmpul atenției. Au testat 180 de secvențe diferite și au observat că majoritatea nu afectau capacitatea de a prezice punctul de rupere, dar un mic grup de caractere asociate cu codul a produs efecte semnificative. Aceasta sugerează că, deși LLM-urile nu procesează vizual ca oamenii, ele pot suferi distorsiuni în organizarea internă care seamănă cu iluziile perceptive umane.

Autorii susțin că, în loc să „detokenizeze” intrarea în pași simpli, straturile timpurii ale modelului implementează o formă de percepție textuală: transformă simbolurile în hărți interne de percepție, similar modului în care straturile timpurii din modelele vizuale extrag trăsături de bază. Ei observă paralelisme între structurile geometrice din model și reprezentările numerice din creierul biologic: caracterele sunt reprezentate de funcții care se extind pe intervale din ce în ce mai largi, iar caracteristicile se organizează pe un manifold de dimensiune redusă, patternuri comune în cogniția biologică. Nu pretind că analogia este perfectă, dar subliniază potențialul unei colaborări mai strânse între neuroștiință și interpretabilitatea modelelor.

Pe plan tehnic, sarcina de linebreaking demonstrează că modelele învață structură din tipare textuale fără o programare explicită. Atenția și matricele QK pot roti sau alinia manifold-urile interne astfel încât multiple heads, fiecare cu un offset diferit, estimează precis câte caractere rămân. În etapa finală, această estimare se combină cu predicția pentru tokenul următor: dacă apare intern o activare care semnalează depășirea limitei, probabilitatea pentru newline crește iar cea pentru un token obișnuit scade. Dacă nu, se continuă scrierea. Rezultatul este o decizie emergentă, nu o regulă hardcodată.

Studiul ridică și o întrebare practică: ce implicații are asta pentru cei care lucrează cu modele de limbaj sau pentru specialiștii în SEO? Pe de-o parte, dezvăluirea modului în care LLM-urile organizează și „percep” structura textului reduce misterul tehnologiei. Pe de altă parte, înțelegerea acestor mecanisme nu transformă automat pe cineva într-un expert SEO, dar oferă context: structurile interne ale modelelor sunt sensibile la tipare și contexte neobișnuite (simboluri de cod, tokenuri speciale), ceea ce poate influența modul în care un text este segmentat sau interpretat de un model automat.

Titlul lucrării este When Models Manipulate Manifolds: The Geometry of a Counting Task, iar concluziile arată că chiar și operațiuni aparent banale, număratul caracterelor sau decizia unde să apară un line break, implică reprezentări geometrice și mecanisme specializate în interiorul rețelelor. Acest fapt deschide căi pentru noi cercetări despre cum pot fi modelele sensibilizate sau consolidate împotriva anumitor perturbări și despre ce componente ale arhitecturii generează aceste „percepții” ale textului. O întrebare pentru cititor: cum crezi că ar putea influența aceste descoperiri modul în care pregătim datele sau instruim modelele pentru sarcini de editare și formatare a textului?

Anthropic: cum Claude 3.5 Haiku creează o busolă internă pentru poziția caracterelor și întreruperile de linie

Fii primul care comentează

Lasă un răspuns Anulează răspunsul