SHRED: Unlearning senza set di mantenimento per LLM tramite auto-distillazione

ai-technology · 2026-05-11

Un nuovo metodo di machine unlearning chiamato SHRED (Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion) è stato proposto per i modelli linguistici di grandi dimensioni (LLM). Mira a rimuovere selettivamente contenuti memorizzati—come dati privati, testi protetti da copyright o conoscenze pericolose—senza richiedere un set di mantenimento di esempi curati, che i metodi esistenti tipicamente necessitano per prevenire il degrado dell'utilità generale del modello. SHRED opera in due fasi: prima, identifica i token ad alta informazione all'interno di un'istanza del forget set che concentrano la conoscenza memorizzata, utilizzando probabilità autoregressive per token; poi, applica auto-distillazione con demozione dei logit a quei token. Il metodo è progettato per essere senza set di mantenimento, eliminando la dipendenza extra dai dati che complica l'implementazione. L'articolo è disponibile su arXiv con identificatore 2605.07482.

Fatti principali

SHRED sta per Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion.
È un metodo di unlearning senza set di mantenimento per LLM.
Il metodo mira alla rimozione di dati privati, testi protetti da copyright o conoscenze pericolose.
Non richiede un set di mantenimento di esempi curati.
SHRED utilizza probabilità autoregressive per token per identificare token ad alta informazione.
Applica auto-distillazione con demozione dei logit a quei token.
L'articolo è disponibile su arXiv con identificatore 2605.07482.
Il metodo affronta il problema della dipendenza dai dati negli approcci di unlearning esistenti.

SHRED: Unlearning senza set di mantenimento per LLM tramite auto-distillazione

Fatti principali

Entità

Istituzioni

Fonti