Cum K-FAC împarte memoria modelelor AI și influențează aritmetica, afirmă Merullo

Când cercetătorii au testat memoria modelelor AI, au observat că operațiile matematice și recuperarea faptelor din memorie utilizează trasee comune în rețeaua neuronală, iar editarea acestor trasee a redus performanța cu 66–86%. Studiul, condus de Merullo și colaboratori, a investigat impactul eliminării componentelor cu curbură mică din peisajul rețelei asupra abilităților modelului și a arătat că aritmetica este deosebit de vulnerabilă: chiar dacă lanțurile de raționament generate rămâneau aceleași, rezultatul calculului era greșit după modificări.

Autorii sugerează că problemele aritmetice pot fi memorate direct în modele de 7 miliarde de parametri sau pot necesita direcții foarte precise pentru calcule exacte, ceea ce le face sensibile la orice intervenție. În schimb, răspunsurile de tip open-book, care se bazează pe contextul din întrebare mai degrabă decât pe cunoștințele interne ale modelului, au rezistat mult mai bine procedurii de editare, păstrând aproape întreaga performanță, adică dacă îi oferi modelului harta, nu mai e necesar să-i ștergi busola internă.

E interesant că separarea mecanismelor variază în funcție de tipul informației. Faptele obișnuite, precum capitalele țărilor, au fost practic neafectate, în timp ce informațiile rare, de exemplu cine conducea o anumită companie, au scăzut cu 78%. Acest lucru indică că modelele alocă resurse neuronale diferit în funcție de frecvența apariției datelor în antrenament: ceea ce este frecvent devine mai „răspândit” în rețea și, probabil, mai greu de șters, pe când datele rare sunt concentrate în trasee precise, ușor de neutralizat.

Metoda folosită, bazată pe K-FAC, a depășit alte tehnici de eliminare a memorării fără a necesita exemple explicite ale conținutului memorat. Pe citate istorice neîntâlnite anterior, K-FAC a înregistrat 16, 1% memorare, comparativ cu 60% pentru metoda anterioară, BalancedSubnet. Aceeași observație a apărut și în cazul modelelor vizuale: transformerele pentru viziune antrenate deliberat cu etichete greșite au dezvoltat căi distincte pentru a memora etichetele false, separate de cele care învață modele corecte. Prin eliminarea căilor de memorare, acuratețea pe imagini etichetate greșit a revenit la 66, 5%.

Cercetătorii subliniază și limitările metodei. Amintirile eliminate pot reveni dacă modelul primește antrenament suplimentar, deoarece metodele actuale de „uitare” tinde să suprime informația mai degrabă decât să o șteargă definitiv din greutăți. Cu doar câțiva pași de antrenament direcționați către acele regiuni, conținutul „uitat” poate fi reactivat. De asemenea, rămâne neclar de ce anumite abilități, precum matematica, se destramă atât de ușor când componentele de memorare sunt eliminate. E posibil ca modelele să fi memorat efectiv calculele sau ca aritmetica să folosească aceleași circuite neuronale ca memorarea. În plus, unele capacități sofisticate pot părea memorare pentru metoda de detectare, deși ar putea reflecta, în realitate, raționamente complexe. Instrumentele matematice folosite pentru a evalua „peisajul” modelului își pierd fiabilitatea la extreme, dar asta nu compromite procesul practic de editare.

Actualizarea publicată pe 11 noiembrie 2025 la 9:16 a.m. a clarificat o explicație despre sortarea greutăților după curbură, pentru a elimina confuziile metodologice.

K-FAC a redus amprenta memorării pe citate istorice de la 60% la 16, 1% și a restabilit 66, 5% din acuratețea pentru imagini etichetate greșit. Aceste rezultate indică că memoria în rețele poate fi segmentată și manipulată, dar nu definitiv; informațiile pot reveni cu antrenament ulterior. Tehnicile aplicate arată cum frecvența apariției datelor modelează modul de stocare a informației, iar fragilitatea aritmeticii ridică întrebări despre limitele separării între memorare și raționament. Ce implicații are asta pentru viitorul modelelor care trebuie să fie atât precise, cât și capabile să „uite” la comandă?

Fii primul care comentează

Lasă un răspuns

Adresa ta de email nu va fi publicată.


*