Judecătoarea Ona Wang a obligat OpenAI să facă publice comunicările interne privind ștergerea dataset-urilor Books 1 și Books 2

De la matrițele tipografice până la colecțiile digitale care circulă online, disputa privind cine deține cuvintele scrise reapare sub forme noi. În centrul unui proces colectiv din Statele Unite se află scriitori care acuză OpenAI că ar fi antrenat ChatGPT cu lucrările lor fără consimțământ și că firma ar fi șters două seturi de date suspectate a conține cărți piratate înainte de lansarea modelului din 2022. Cazul se judecă în SUA, iar deciziile recente ale unei instanțe pot clarifica motivele reale pentru care acele seturi de date au dispărut din arhivele companiei.

Seturile de date, numite Books 1 și Books 2, au fost create în 2021 de foști angajați ai OpenAI și au fost alimentate prin extragere masivă de pe web, o parte semnificativă a conținutului provenind din Library Genesis, o bibliotecă „shadow” cunoscută pentru colecțiile sale neautorizate. OpenAI afirmă că aceste dataset-uri au încetat să mai fie folosite în același an și, pe această bază, au fost eliminate intern. Autorii din proces însă văd mai mult decât o simplă curățenie digitală: ei suspectează că ștergerea ar fi putut ascunde urme relevante pentru litigiu.

Conflictul a luat o întorsătură importantă când OpenAI părea să-și modifice explicațiile: inițial a invocat nefolosirea dataset-urilor ca motiv pentru ștergere, apoi a retras acea afirmație și, în final, a susținut că toate motivele invocate pentru ștergere, inclusiv nefolosirea, sunt acoperite de privilegiul avocat-client. Autorii au considerat această schimbare un indiciu că firma încerca să limiteze accesul la discuțiile interne despre soarta datelor. Curtea permisese anterior autorilor să solicite acces la mesajele interne care menționau nefolosirea, iar reacția OpenAI a întărit suspiciunile.

Recent, judecătoarea Ona Wang a ordonat OpenAI să transmită toate comunicațiile cu avocații interni referitoare la ștergerea dataset-urilor, precum și toate referirile interne la Library Genesis pe care compania le-a redactat sau reținut invocând privilegiul avocat-client. Motivația instanței a fost clară: OpenAI susținuse pe de o parte că nefolosirea nu fusese un motiv pentru ștergere și, pe de altă parte, că orice motiv legat de ștergere merită protecție prin privilegiu, ceea ce părea contradictoriu pentru judecătoare. Decizia deschide ușa pentru ca autorii să vadă cum s-au discutat intern motivele și contextul ștergerii.

Miza nu este doar procedurală. Dacă probele interne arată că ștergerea urmărea să elimine urmele care leagă modelul de lucrările autorilor, asta ar putea fi decisiv în procesul colectiv. Pe de altă parte, firmele de inteligență artificială invocă frecvent necesitatea gestionării unor seturi de date uriașe și dificultatea trasabilității la scară mare. Cazul scoate în evidență probleme vechi: proveniența datelor folosite pentru antrenarea modelelor, modul în care se tratează conținutul protejat prin drepturi de autor și limitele privilegiului avocat-client în fața cererilor de transparență.

Controversa legată de Books 1, Books 2 și Library Genesis ridică întrebări clare despre cum păstrează companiile înregistrările și ce informații pot fi protejate în numele consultanței legale. Este un semnal pentru industrie că documentarea internă și politicile privind datele contează nu doar din punct de vedere tehnic, ci și juridic. Redactările și motivele invocate pot părea banale, dar în astfel de procese ele pot face diferența între o hotărâre favorabilă sau nu pentru autori.

Judecătoarea Ona Wang a dispus divulgarea comunicărilor interne privind ștergerea dataset-urilor Books 1 și Books 2. Cazul pune în discuție transparența, responsabilitatea privind proveniența datelor și limitele privilegiului avocat-client în era modelelor de limbaj, iar decizia va avea ecou în modul în care firmele documentează folosirea datelor. Considerați că dezvăluirea acestor mesaje interne va schimba cursul procesului și practicile din industrie?

Judecătoarea Ona Wang a obligat OpenAI să facă publice comunicările interne privind ștergerea dataset-urilor Books 1 și Books 2

Fii primul care comentează

Lasă un răspuns Anulează răspunsul