DareU: Disimparare nei LLM tramite Ricompense di Attribuzione dei Dati

ai-technology · 2026-06-01

Un nuovo framework per il disimparare nei modelli linguistici di grandi dimensioni (LLM), chiamato DareU, è stato introdotto dai ricercatori. Questo approccio innovativo sposta l'obiettivo di ottimizzazione dalla massimizzazione della perdita su un set da dimenticare all'eliminazione dell'attribuzione dei dati. Impiegando l'apprendimento per rinforzo, DareU aggiorna l'LLM, abbassando efficacemente il punteggio di attribuzione per le risposte collegate ai proprietari dei dati che devono essere dimenticati, un processo chiamato de-attribuzione. Test empirici che utilizzano un classificatore LLM come approssimazione affidabile dell'attribuzione dimostrano che DareU supera i benchmark attuali, ottenendo un disimparare di successo riducendo al contempo l'eccessivo oblio e preservando le prestazioni del modello. La ricerca è disponibile su arXiv con ID 2605.30919.

Fatti principali

DareU è il primo framework di disimparare per LLM basato su ricompense di attribuzione dei dati.
Utilizza l'apprendimento per rinforzo per de-attribuire le risposte ai proprietari dei dati da dimenticare.
L'approccio affronta l'eccessivo oblio e la scarsa utilità del modello.
La valutazione empirica utilizza un classificatore LLM per un'efficiente approssimazione dell'attribuzione.
DareU supera le baseline esistenti.
L'articolo è disponibile su arXiv (ID 2605.30919).
Il lavoro inquadra il disimparare come azzeramento dell'attribuzione dei dati.
Il metodo riduce i punteggi di attribuzione delle risposte generate.

DareU: Disimparare nei LLM tramite Ricompense di Attribuzione dei Dati

Fatti principali

Entità

Istituzioni

Fonti