Divario di Affidabilità nel Machine Unlearning nei Modelli Linguistici

ai-technology · 2026-05-22

Una nuova indagine disponibile su arXiv esamina il paradosso dell'affidabilità nell'ambito del machine unlearning, concentrandosi specificamente sui modelli linguistici generativi. I risultati indicano una discrepanza tra l'errore di calibrazione e l'effettiva affidabilità delle decisioni del modello. I modelli fine-tuned mostrano un errore di calibrazione atteso (ECE) molto più basso (~0.04) rispetto alle loro controparti pre-addestrate (ECE > 0.5). Nonostante questo tasso di errore inferiore, i ricercatori hanno scoperto che tale calibrazione non sempre garantisce risultati accurati o affidabili, poiché i modelli possono ancora prendere decisioni basate su correlazioni errate. Vari metodi di valutazione, incluso il benchmark TOFU, sono stati impiegati per valutare questo fenomeno.

Fatti principali

Il paper arXiv 2605.20915 esamina il machine unlearning nei modelli linguistici.
L'errore di calibrazione è usato come proxy per l'affidabilità ma può essere fuorviante.
I modelli fine-tuned hanno ECE ~ 0.04, i modelli pre-addestrati hanno ECE > 0.5.
Un basso errore di calibrazione non implica regole decisionali affidabili.
I modelli possono basarsi su correlazioni spurie pur rimanendo ben calibrati.
Lo studio utilizza il benchmark TOFU e un protocollo di domande a risposta multipla.
L'affidabilità probabilistica è misurata con ECE, MCE, Brier.
L'affidabilità delle regole decisionali è misurata tramite Integrated Gradients e Local Mutual Information.

Divario di Affidabilità nel Machine Unlearning nei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti