Cercetători de la MIT, Northeastern University și Meta au arătat că modelele mari de limbaj pot favoriza forma propoziției în detrimentul sensului; concluziile provin dintr-un experiment efectuat pe modele de cercetare și vor fi prezentate la conferința NeurIPS în această lună. Istoric, studiul limbajului a pendulat între reguli gramaticale și semnificații contextuale; acum, după ce rețelele neuronale au învățat din trilioane de exemple, apar semne că ele rețin ambele tipuri de informații, dar uneori se blochează când structura devine mai convingătoare decât semnificația.
Echipa condusă de Chantal Shaib și Vinith M. Suriyakumar a conceput teste în care propozițiile păstrau schemele gramaticale ale întrebărilor reale, dar erau construite cu termeni fără sens. Un exemplu utilizat a fost propoziția Quickly sit Paris clouded?, care reproducea structura unei întrebări despre locație; surprinzător pentru un om, modelele au răspuns France. Aceasta sugerează că rețelele pot învăța corelații între tiparele sintactice și domeniile concrete din datele de antrenament și că, în situații limită, aceste corelații pot înlocui înțelegerea semantică.
Distincția între sintaxă și semantică e esențială: sintaxa privește modul în care sunt aranjate cuvintele, iar semantica se ocupă de ceea ce transmit ele. Modelele mari transformă un prompt într-un răspuns printr-un lanț complex de potriviri de pattern-uri între intrare și ceea ce au învățat anterior. Când pattern-urile gramaticale sunt suficient de puternice și frecvente în seturile de antrenament, ele pot deveni scurtături care conduc la erori subtile.
Pentru a testa acest lucru controlat, cercetătorii au creat un set de date sintetic în care fiecărei arii tematice îi corespundea un sablon gramatical unic, bazat pe părțile de vorbire. Întrebările de geografie aveau un tipar, cele despre opere creative altul, și așa mai departe. Au antrenat apoi modelele Olmo ale Allen AI pe aceste date și le-au verificat capacitatea de a separa sintaxa de semnificație. Rezultatele indică vulnerabilități care explică, parțial, de ce anumite tehnici de prompt injection sau jailbreak funcționează, deși autorii atenționează că extrapolarea la modele comerciale rămâne speculativă din cauza lipsei de transparență privind datele de antrenament.
Implicarea practică e clară: pentru robustețea și siguranța aplicațiilor care folosesc astfel de modele trebuie înțelese nu doar frecvențele statistice din date, ci și modul în care aceste frecvențe sunt folosite ca scurtături. Pe scurt, nu e suficient să testezi dacă un model oferă un răspuns corect în medie; trebuie verificate și acele colțuri unde forma îl induce în eroare. Și da, asta înseamnă mai multe experimente de tipul celor prezentate de Shaib și Suriyakumar, plus mai multă claritate din partea operatorilor comerciali.
NeurIPS este locul unde echipa își va prezenta concluziile luna aceasta. Tema centrală, distincția între sintaxă și semantică, ilustrată prin exemple precum Quickly sit Paris clouded? și prin modelele Olmo, evidențiază riscul ca reguli statistice să mascheze înțelegerea reală. Pentru modelele comerciale, interpretarea rămâne precaută din cauza lipsei de transparență privind datele de antrenament.
Consideri că aceste descoperiri ar trebui să determine companiile să schimbe modul în care publică informații despre datele de antrenament sau despre testarea modelelor?

Fii primul care comentează