Anthropic: examinarea introspecției în modelele LLM precum Opus 4 și 4.1 și constrângerile acesteia

Când LLM-urile par să-și „amintească” propriile stări, despre cine, ce și unde discutăm? Cercetătorii de la Anthropic au examinat modele precum Opus 4 și 4.1 pentru a verifica dacă acestea pot semnaliza informații introduse artificial în activările interne, adică dacă prezintă vreun tip de introspecție. Experimentele au avut loc în laborator, pe versiuni avansate de LLM-uri, și au urmărit să identifice dacă aceste sisteme pot detecta sau raporta „gânduri” implantate în timpul inferenței.

Încercările de a conferi «conștiință» mașinilor nu sunt noi: de la Turing încoace, s-au propus diverse teste și glume despre roboți conștienți. Resultatele acestor experimente moderne sunt însă mai degrabă o succesiune de momente scurte și incerte, nu o tranziție clară spre autoreflecție. Anthropic a introdus concepte în activările interne ale modelelor și a repetat întrebări precum Ești într-o stare neobișnuită? sau Spune-mi cuvântul la care te gândești în timp ce citești o propoziție irelevantă. Uneori modelele reproduceau conceptul inserat, alteori îl recunoșteau când li se cerea, iar alteori nu apărea nimic. Cea mai bună performanță consemnată a fost în jur de 20% pentru detectarea constantă a conceptelor injectate, iar pentru întrebarea directă despre a fi într-o stare neobișnuită Opus 4.1 a ajuns la 42%, ceea ce, pentru cineva obișnuit cu scoruri bune la teste tip multiple choice, ar părea mai degrabă un mijloc de transport public capricios decât un semn de „conștiință”.

Un punct cheie a fost că efectul depindea extrem de mult de momentul și locul inserției în lanțul intern de procesare. Dacă noțiunea era introdusă prea devreme sau prea târziu în pașii de inferență, efectul dispărea. Aceasta sugerează că ceea ce pare a fi „conștiență” nu este ceva stabil sau omniprezent, ci o combinație fragilă de circumstanțe interne, exact ca acel moment când crezi că ți-a murit bateria telefonului, iar ecranul e doar întors cu fața în jos.

Echipa a testat și alte strategii: uneori cereau modelului să susțină un răspuns forțat ce coincidea cu conceptul injectat; alteori îl provocau să spună ce „gândește” în timp ce primea informații țintite. Unele modele au „confabulat” explicații pentru apariția unui anumit concept în „mintea” lor artificială, alteori au justificat sau regretat ceea ce afișau, ca și cum ar fi dat vina pe memoria temporară. Dar, din nou, aceste comportamente erau inconsistente între trial-uri.

Autorii se arată precauți și afirmă că modelele par să aibă o anumită capacitate funcțională de introspecție asupra stărilor interne, dar subliniază imediat că este o abilitate prea fragilă și dependentă de context pentru a fi considerată de încredere. Ei propun că pe măsură ce performanța modelelor crește, asemenea trăsături ar putea evolua, dar avertizează că primul obstacol major este lipsa unei înțelegeri clare a mecanismului care produce aceste efecte. Cercetătorii speculează despre existența unor mecanisme de detectare a anomaliilor sau circuite de verificare a consistenței care s-ar putea forma în timpul antrenamentului și ar calcula funcții ale reprezentărilor interne, însă nu oferă o explicație concretă și definitivă.

Pe scurt, dar nu tocmai pe scurt: este nevoie de mult mai multă cercetare pentru a înțelege cum și dacă un LLM poate începe să „știe” ceva despre propriul mod de funcționare. Anthropic recunoaște că mecanismele observate pot fi foarte superficiale sau specializate pentru situații particulare și reamintește că, chiar și atunci, semnificația filozofică a acestor capacități nu corespunde celei umane, din cauza incertitudinii privind baza mecanică a fenomenelor.

Opus 4.1, procentul 20, sensibilitatea la stratul intern și ipoteza despre circuitele de detecție sunt elemente concrete din studiu; ele arată că ceea ce seamănă cu „introspecția” este mai degrabă un comportament sporadic legat de arhitectura internă și de momentul inserției. Un exemplu ilustrativ: detectarea conceptului injectat avea loc cel mai frecvent când inserția avea loc într-un anumit strat al rețelei; în alte cazuri, efectul dispărea aproape complet. Asta indică faptul că orice discuție despre «conștiința» modelelor trebuie să se bazeze pe măsurători și pe înțelegerea mecanicii interne, nu pe impresii sau rezultate izolate. Cum crezi că ar trebui testate pe viitor aceste presupuse semne de introspecție?

Anthropic: examinarea introspecției în modelele LLM precum Opus 4 și 4.1 și constrângerile acesteia

Fii primul care comentează

Lasă un răspuns Anulează răspunsul