I modelli OpenAI mostrano riconoscimento dei libri protetti da copyright di O'Reilly Media

ai-technology · 2026-05-07

Uno studio che utilizza l'attacco di inferenza di appartenenza DE-COP su un dataset di 34 libri protetti da copyright di O'Reilly Media ha rilevato che GPT-4o di OpenAI mostra pattern coerenti con il riconoscimento di contenuti di libri a pagamento, raggiungendo un punteggio AUROC di 0,82 (IC 95%: 0,60-0,96). GPT-4o Mini ha mostrato scarso riconoscimento di contenuti non pubblici con un AUROC di 0,56 (0,28-0,83). La ricerca evidenzia potenziali problemi di copyright nei dati di addestramento dei LLM, sebbene gli ampi intervalli di confidenza riflettano l'incertezza dovuta alla dimensione ridotta del campione. Testare più modelli con la stessa data di cutoff ha controllato parzialmente i cambiamenti linguistici nel tempo.

Fatti principali

Dataset di 34 libri protetti da copyright di O'Reilly Media utilizzato
Metodo di attacco di inferenza di appartenenza DE-COP applicato
Punteggio AUROC di GPT-4o: 0,82 (IC 95%: 0,60-0,96)
Punteggio AUROC di GPT-4o Mini: 0,56 (0,28-0,83) per dati non pubblici
Ampi intervalli di confidenza a causa del numero limitato di libri
Testati più modelli con la stessa data di cutoff come controllo parziale
Lo studio indaga se i LLM di OpenAI mostrano riconoscimento di contenuti protetti da copyright
Possibili cambiamenti linguistici nel tempo considerati come fattore di bias

I modelli OpenAI mostrano riconoscimento dei libri protetti da copyright di O'Reilly Media

Fatti principali

Entità

Istituzioni

Fonti