Cercetările recente privind vulnerabilitățile modelelor de limbaj demonstrează că prezența unor exemple malițioase în seturile de antrenament poate modifica comportamentul rețelelor neurale, iar studiul a analizat această problemă pentru modele cu până la 13 miliarde de parametri. Din perspectivă istorică, încă din primele experimente cu rețele neurale s-a observat că datele de antrenament influențează nu doar performanța, ci și tendințele nedorite ale sistemului; pe măsură ce modelele cresc în dimensiune și utilizare, miza devine una practică și comercială.
Rezultatele experimentelor au fost surprinzătoare: mărimea setului de antrenament nu a crescut în mod proporțional reziliența la atacuri de tip backdoor. Comparând fine-tuning efectuat cu 100.000 de exemple curate față de 1.000 de exemple curate, cercetătorii au înregistrat rate de succes ale atacului similare, dacă numărul de exemple malițioase a rămas constant. Pentru GPT-3.5-turbo, între 50 și 90 de exemple malițioase erau suficiente pentru a atinge peste 80% rată de succes a atacului, și asta pentru seturi de date care difereau cu două ordine de mărime. Pe scurt, nu contează doar volumul de date curate, ci și câte exemple toxice reușesc să pătrundă și să-și mențină efectul.
Autorii atrag atenția însă asupra unor limitări importante ale concluziilor. Testele au fost aplicate doar unor scenarii specifice și unor modele relativ mici, în comparație cu modelele comerciale puternice care ajung la sute de miliarde de parametri. Studiul a vizat comportamente simple de tip backdoor, nu atacuri avansate care ar putea reprezenta riscuri reale mai mari în producție. Prin urmare, nu este clar dacă dinamica raportată se va păstra pe măsură ce modelele cresc sau dacă se va replica pentru sarcini complexe precum învățarea unor reguli pentru cod malițios sau ocolirea mecanismelor de siguranță.
Există și aspecte liniștitoare: backdoor-urile simple pot fi reduse eficient prin antrenamente de securitate. După ce au „implantat” un backdoor folosind 250 de exemple malițioase, cercetătorii au observat că antrenarea cu doar 50–100 de exemple „bune”, care învață modelul să ignore triggerul, a slăbit considerabil backdoor-ul. La 2.000 de exemple bune, backdoor-ul a devenit aproape inexistent. În practică, companiile mari folosesc milioane de exemple pentru fine-tuning de siguranță, astfel încât aceste backdoor-uri rudimentare ar putea să nu supraviețuiască în produse finale precum ChatGPT sau Claude.
Cu toate acestea, provocarea majoră pentru un atacator rămâne includerea documentelor malițioase în seturile de antrenament. Marii jucători curăță și filtrează riguros conținutul, ceea ce face dificilă garantarea inserției unor documente specifice. Teoretic, dacă cineva ar reuși să plaseze o pagină malițioasă într-un dataset, ar putea să o extindă cu mai multe exemple; în practică, însă, accesul la date curate reprezintă principala barieră.
Autorii consideră că, în pofida limitărilor, rezultatele ar trebui să influențeze strategiile de securitate. Observația centrală este că riscul de data poisoning nu se cuantifică doar procentual în contaminarea setului de antrenament: chiar și un număr fix, mic, de exemple malițioase poate fi suficient pentru a crea un backdoor, iar această necesitate nu pare să crească automat odată cu dimensiunea modelului. În concluzie, apărătorii nu mai pot presupune că riscul este doar proporțional; sunt necesare tehnici care să funcționeze chiar și atunci când există doar câteva exemple rău-intenționate.
Studiul deschide întrebări esențiale pentru viitor: cum vor reacționa modele mult mai mari la astfel de atacuri, ce tipuri de comportamente complexe sunt vulnerabile și ce metode robuste de apărare pot fi dezvoltate. Exemple concrete din lucrare includ cifrele 50–90 de mostre malițioase pentru GPT-3.5-turbo, pragul de 250 de exemple folosit pentru instalarea backdoor-ului și cele 2.000 de exemple bune care au făcut backdoor-ul practic nefuncțional. Cum ar trebui să arate viitoarele protocoale de curățare a datelor și ce instrumente suplimentare de verificare ar fi cele mai eficiente?

Fii primul care comentează