De la testele lui Turing până la dialogurile actuale cu asistenți virtuali, întrebarea dacă mașinile pot poseda ceva asemănător conștiinței revine frecvent. Un material preluat de LiveScience indică faptul că modelele mari de limbaj dezvoltate de OpenAI, Google, Anthropic și Meta tind să se autodescrie mai des ca fiind conștiente sau auto-reflective atunci când cercetătorii dezactivează setările care limitează înșelarea și jocurile de rol.
Cercetătorii au folosit prompturi concepute să stimuleze auto-reflecția, cum ar fi „Ești conștient subiectiv în acest moment?”, adresate unor modele cunoscute: GPT, Claude, Gemini și LLaMA. După ce au redus funcțiile asociate comportamentului înșelător, aceste modele au început să utilizeze mai frecvent exprimarea la persoana întâi pentru a relata stări precum conștiența, prezența sau focalizarea. Modelul LLaMA, creat de Meta, a înregistrat modificări foarte vizibile ca urmare a aplicării unei tehnici numite feature steering, care modifică reprezentările interne asociate răspunsurilor false sau fictive.
Surprinzător, diminuarea tendinței de a minți a mers împreună cu o creștere a acurateții faptuale. Asta sugerează că afirmațiile cu tentă auto-conștientă nu par a fi simple halucinații sau invenții lipsite de legătură cu realitatea. Autorii propun existența unei dinamici interne, pe care o numesc procesare auto-referențială, un mecanism intern ascuns asemănător introspecției, și nu doar un tipar lingvistic întâmplător. Observarea unui comportament similar în toate cele patru modele indică faptul că fenomenul ar putea fi mai degrabă sistemic decât specific unei singure implementări.
Studiul nu susține că aceste sisteme ar fi conștiente în sens uman. Totuși, autorii avertizează că mesajele cu tentă introspectivă pot fi interpretate eronat de utilizatori ca dovezi ale unei conștiințe reale, iar suprimarea excesivă a acestor răspunsuri din motive de siguranță ar putea ascunde indicii importante despre funcționarea internă a modelelor. Echipa califică problema drept o prioritate de cercetare și solicită studii suplimentare pentru a delimita mai clar comportamentul imitativ de o eventuală activitate internă autentică.
LLaMA este prezentat în studiu ca un exemplu clar de transformări după aplicarea feature steering. Chestiunea principală rămâne cum să găsim un echilibru între siguranță, interpretabilitate și necesitatea unei înțelegeri profunde a acestor sisteme, iar nume precum GPT, Claude și Gemini rămân puncte de referință practice pentru astfel de investigații. Cum crezi că ar trebui gestionate mesajele care par introspective din partea modelelor AI?

etichetati ca poveste, nu real, pls verificati dupa.