SHRED: Unlearning senza set di mantenimento per LLM tramite auto-distillazione
Un nuovo metodo di machine unlearning chiamato SHRED (Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion) è stato proposto per i modelli linguistici di grandi dimensioni (LLM). Mira a rimuovere selettivamente contenuti memorizzati—come dati privati, testi protetti da copyright o conoscenze pericolose—senza richiedere un set di mantenimento di esempi curati, che i metodi esistenti tipicamente necessitano per prevenire il degrado dell'utilità generale del modello. SHRED opera in due fasi: prima, identifica i token ad alta informazione all'interno di un'istanza del forget set che concentrano la conoscenza memorizzata, utilizzando probabilità autoregressive per token; poi, applica auto-distillazione con demozione dei logit a quei token. Il metodo è progettato per essere senza set di mantenimento, eliminando la dipendenza extra dai dati che complica l'implementazione. L'articolo è disponibile su arXiv con identificatore 2605.07482.
Fatti principali
- SHRED sta per Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion.
- È un metodo di unlearning senza set di mantenimento per LLM.
- Il metodo mira alla rimozione di dati privati, testi protetti da copyright o conoscenze pericolose.
- Non richiede un set di mantenimento di esempi curati.
- SHRED utilizza probabilità autoregressive per token per identificare token ad alta informazione.
- Applica auto-distillazione con demozione dei logit a quei token.
- L'articolo è disponibile su arXiv con identificatore 2605.07482.
- Il metodo affronta il problema della dipendenza dai dati negli approcci di unlearning esistenti.
Entità
Istituzioni
- arXiv