În Iran, un refuz politicos la plata unui taxi sau insistența entuziastă a unei gazde care vrea să te răsfețe nu sunt simple ticuri, sunt norme sociale bine definite, parte a unui schimb verbal denumit taarof. Studii recente indică faptul că marile inteligențe artificiale încă nu stăpânesc această coregrafie culturală, iar asta poate avea efecte practice când asistenții virtuali comunică cu vorbitori de persană.
Taarof nu e doar un obicei; este un sistem codificat de politețe în care ceea ce se spune și ceea ce se înțelege pot diverge. Se oferă, se insistă, se refuză, se insistă din nou, toate acestea fac parte dintr-un ritual al generozității și recunoștinței. Cercetarea condusă de Nikta Gohari Sadr de la Brock University, împreună cu specialiști de la Emory și alte instituții, prezintă TAAROFBENCH, primul benchmark conceput pentru a măsura cât de bine pot reproduce modelele de limbaj acest tip de interacțiune. Rezultatele nu sunt foarte încurajatoare pentru modelele uzuale: GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 și Dorna (o versiune Llama 3 finetuned pentru persană) au o rată de succes de doar 34–42% în aceste scenarii. Oamenii nativi persani surprind contextul corect în proporție de 82%.
Studiul arată că modelele tind să adopte o directitate de tip occidental, răspunzând literal la oferte sau refuzuri și trecând cu vederea semnalele subtile care transformă un refuz politicos într-o invitație sinceră. O astfel de neînțelegere nu este doar un detaliu lingvistic; în contexte sensibile, negocieri, relații diplomatice sau comunicare profesională, pașii greșiți pot deraia convorbirile, eroda încrederea și întări stereotipuri. Cercetătorii subliniază că aceste erori culturale pot rămâne invizibile pentru mulți dezvoltatori occidentali, dar au impact real în viața cotidiană a milioanelor de vorbitori de persană.
TAAROFBENCH nu doar definește scenarii, mediul, rolurile, contextul și replicile posibile sunt mapate astfel încât sistemele automatizate să fie evaluate în situații apropiate de cele reale. Conceptual, exercițiul scoate în evidență diferența dintre sensul literal și cel pragmatic: când cineva spune „fii oaspetele meu de data asta” în Iran, nu e neapărat o invitație fără pretenții; poate marca începutul unui schimb ritualizat în care clientul trebuie să insiste să plătească înainte ca gazda să accepte. S-ar putea spune că e ca un dans în care prea multă sinceritate strică ritmul.
Descrierea taarof din lucrare reia idei din literatura etnografică: e un set de schimburi ritualizate, oferte repetate în ciuda refuzurilor inițiale, refuzuri ale cadourilor în timp ce dăruitorul insistă, devieri ale complimentelor urmate de reafirmări. Rafiee, care a folosit expresia „polite verbal wrestling” încă din 1991, surprinde bine tensiunea dintre aparență și intenție. Modelele de limbaj care nu prind aceste nuanțe vor interpreta totul literal, iar interlocutorii persani vor simți că lipsește ceva: nu e doar o eroare de traducere, ci pierderea unui cod social.
Datele arată un decalaj net între performanța umană și cea a AI: 82% înțelegere corectă în rândul vorbitorilor nativi versus 34–42% pentru modelele moderne. Aceasta indică o limitare a datelor și a procesului de antrenament, care tinde să alinieze modelele la norme comunicative occidentale. Pentru cercetători, provocarea este dublă: trebuie create seturi de date sensibile la contexte culturale și metode de instruire care să includă reguli pragmatice, nu numai statistici lexicale. Aceasta implică muncă atentă cu vorbitori nativi, scenarii realiste și, eventual, arhitecturi de modele capabile să învețe strategii de negociere politico-refuzative.
Dincolo de valoarea academică, TAAROFBENCH aduce în discuție responsabilitatea dezvoltatorilor de AI cu utilizare globală: sistemele nu pot fi considerate neutre cultural dacă reproduc doar un tip de conduite verbale. Fiecare limbă ascunde reguli sociale; când AI le ignoră, rezultatul poate fi confuz sau chiar jignitor, chiar dacă intenția tehnologică pare neutră. Prin urmare, integrarea competențelor culturale nu este un accesoriu, ci o componentă esențială pentru interfețele care ajung la oameni reali, în contexte reale.
TAAROFBENCH și concluziile studiului ne reamintesc că tehnologia reproducere nu urmărește doar cuvinte, ci și contexte. Dacă Dorna sau Llama 3 nu reușesc să recupereze corect semnificațiile taarof, soluția nu constă doar în mai mult text de antrenament, ci într-o abordare care să includă etnografii, colaborare cu comunități lingvistice și benchmark-uri care reflectă nuanțele vieții sociale. Un AI care negociază cu delicatețe nu este doar un instrument mai eficient; e un semn de respect față de regulile culturale ale interlocutorilor săi.
TAAROFBENCH, numele proiectului, apare ca un punct de plecare concret: benchmark, titlu, organizații implicate și rezultate numerice (34–42% pentru modele, 82% pentru oameni). Studiul evidențiază diferențe clare între modele (GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3, Dorna) și capacitatea lor de a manevra taaroful. Această particularizare arată ce trebuie corectat: nu doar îmbunătățirea limbajului, ci antrenarea pe reguli culturale specifice. Există deja un ghid empiric, iar următoarea provocare este aplicarea lui în produse care ajung la utilizatorii finali.
Cât de importantă e o replică politicos-refuzativă? Mult mai mult decât pare, pentru că ea transmite respect, ierarhii subtile și reguli sociale care mențin coeziunea comunității. Gândiți-vă la un taxi din Teheran: dacă acceptați politicos oferta șoferului de a plăti el, fără să insistați, riscați un moment de jenă culturală. Un AI care nu știe asta poate lăsa o impresie proastă, poate afecta negocieri sau poate perpetua neînțelegeri. Există aici o lecție practică pentru dezvoltatori: localizarea e mai mult decât traducere; e adaptare la moduri de comunicare.
Ce urmează, concret? Cercetătorii vor rafina TAAROFBENCH și vor propune metode de instruire care să includă exemple contextuale, feedback de la vorbitori nativi și metrici care să măsoare nu doar acuratețea literală, ci și adecvarea socială. În paralel, creatorii de modele vor trebui să considere că validarea globală cere testare culturală. În cele din urmă, spre bine sau spre haz, o mașină care știe să joace taarof nu înseamnă doar politețe sintactică, ci capacitatea de a înțelege cum se manifestă respectul în diverse limbi și culturi.
TAAROFBENCH este menționat explicit în text, iar cifrele 34–42% și 82% sunt esențiale în evaluarea performanței modelelor comparativ cu oamenii. Cum ar arăta o aplicație de traducere sau un chatbot care stăpânește taaroful? Probabil mult mai natural în conversații practice: rezervări, oferte, invitații sau negocieri. Ar fi, pe scurt, un pas spre o tehnologie care comunică nu doar corect, ci și adecvat social. Credeți că dezvoltatorii ar trebui să prioritizeze adaptarea culturală în detrimentul optimizării rapide pentru metrici globale?
Fii primul care comentează