I modelli OpenAI mostrano riconoscimento dei libri protetti da copyright di O'Reilly Media
Uno studio che utilizza l'attacco di inferenza di appartenenza DE-COP su un dataset di 34 libri protetti da copyright di O'Reilly Media ha rilevato che GPT-4o di OpenAI mostra pattern coerenti con il riconoscimento di contenuti di libri a pagamento, raggiungendo un punteggio AUROC di 0,82 (IC 95%: 0,60-0,96). GPT-4o Mini ha mostrato scarso riconoscimento di contenuti non pubblici con un AUROC di 0,56 (0,28-0,83). La ricerca evidenzia potenziali problemi di copyright nei dati di addestramento dei LLM, sebbene gli ampi intervalli di confidenza riflettano l'incertezza dovuta alla dimensione ridotta del campione. Testare più modelli con la stessa data di cutoff ha controllato parzialmente i cambiamenti linguistici nel tempo.
Fatti principali
- Dataset di 34 libri protetti da copyright di O'Reilly Media utilizzato
- Metodo di attacco di inferenza di appartenenza DE-COP applicato
- Punteggio AUROC di GPT-4o: 0,82 (IC 95%: 0,60-0,96)
- Punteggio AUROC di GPT-4o Mini: 0,56 (0,28-0,83) per dati non pubblici
- Ampi intervalli di confidenza a causa del numero limitato di libri
- Testati più modelli con la stessa data di cutoff come controllo parziale
- Lo studio indaga se i LLM di OpenAI mostrano riconoscimento di contenuti protetti da copyright
- Possibili cambiamenti linguistici nel tempo considerati come fattore di bias
Entità
Istituzioni
- O'Reilly Media
- OpenAI