ARTFEED — Contemporary Art Intelligence

Divario di Affidabilità nel Machine Unlearning nei Modelli Linguistici

ai-technology · 2026-05-22

Una nuova indagine disponibile su arXiv esamina il paradosso dell'affidabilità nell'ambito del machine unlearning, concentrandosi specificamente sui modelli linguistici generativi. I risultati indicano una discrepanza tra l'errore di calibrazione e l'effettiva affidabilità delle decisioni del modello. I modelli fine-tuned mostrano un errore di calibrazione atteso (ECE) molto più basso (~0.04) rispetto alle loro controparti pre-addestrate (ECE > 0.5). Nonostante questo tasso di errore inferiore, i ricercatori hanno scoperto che tale calibrazione non sempre garantisce risultati accurati o affidabili, poiché i modelli possono ancora prendere decisioni basate su correlazioni errate. Vari metodi di valutazione, incluso il benchmark TOFU, sono stati impiegati per valutare questo fenomeno.

Fatti principali

  • Il paper arXiv 2605.20915 esamina il machine unlearning nei modelli linguistici.
  • L'errore di calibrazione è usato come proxy per l'affidabilità ma può essere fuorviante.
  • I modelli fine-tuned hanno ECE ~ 0.04, i modelli pre-addestrati hanno ECE > 0.5.
  • Un basso errore di calibrazione non implica regole decisionali affidabili.
  • I modelli possono basarsi su correlazioni spurie pur rimanendo ben calibrati.
  • Lo studio utilizza il benchmark TOFU e un protocollo di domande a risposta multipla.
  • L'affidabilità probabilistica è misurata con ECE, MCE, Brier.
  • L'affidabilità delle regole decisionali è misurata tramite Integrated Gradients e Local Mutual Information.

Entità

Istituzioni

  • arXiv

Fonti