Distinguishable Deletion: Nuovo Paradigma per il Disapprendimento degli LLM

ai-technology · 2026-05-20

Un nuovo approccio chiamato Distinguishable Deletion (D²) è stato introdotto per migliorare il processo di disapprendimento nei modelli linguistici di grandi dimensioni (LLM). Le tecniche attuali si dividono in due tipi: Knowledge Deletion (KD), che elimina le informazioni indesiderate durante la fase di addestramento, e Distinguishable Refusal (DR), che impedisce ai modelli di utilizzare informazioni sensibili durante l'inferenza. La KD è limitata dalla sua tendenza a sopprimere selettivamente determinate sequenze di token piuttosto che cancellare completamente la conoscenza, mentre la DR può permettere che informazioni dannose riemergano poiché la conoscenza originale rimane. D² modifica la distribuzione delle risposte nella rappresentazione latente per rimuovere efficacemente la conoscenza indesiderata, differenziandola da quella conservata, fornendo così un meccanismo per gestire in modo sicuro gli input disappresi. Questa strategia cerca di integrare la cancellazione della conoscenza e il rifiuto per una maggiore efficacia del disapprendimento degli LLM.

Fatti principali

1. Distinguishable Deletion (D²) è un nuovo paradigma per il disapprendimento degli LLM.
2. Gli approcci esistenti sono Knowledge Deletion (KD) e Distinguishable Refusal (DR).
3. KD cancella le informazioni indesiderate durante l'addestramento.
4. DR orienta i modelli a non utilizzare conoscenze sensibili durante l'inferenza.
5. KD soffre di cancellazione distorta a causa della soppressione di specifiche sequenze di token.
6. DR rischia la riemersione di conoscenze dannose perché la conoscenza sottostante rimane intatta.
7. D² limita la distribuzione delle risposte nella rappresentazione latente anziché token specifici.
8. D² consente un meccanismo di rifiuto per la gestione sicura degli input disappresi.

Entità

—

Fonti

arXiv cs.AI — 2026-05-19