SAEmnesia: Autoencoder Sparsi Supervisionati per il Disapprendimento di Concetti nei Modelli Diffusivi
Un nuovo framework chiamato SAEmnesia è stato introdotto dai ricercatori, progettato per affrontare il disapprendimento di concetti nei modelli diffusivi attraverso l'implementazione di mappature uno-a-uno tra concetti e neuroni. Questo approccio innovativo affronta efficacemente il problema della frammentazione delle caratteristiche, che complica la rimozione di concetti sparsi su numerose caratteristiche latenti. Etichettando meticolosamente i concetti durante il processo di addestramento, SAEmnesia raggiunge una centralizzazione delle caratteristiche, collegando ogni concetto a un neurone distinto e interpretabile. Rispetto ai principali metodi di disapprendimento basati su autoencoder sparsi, SAEmnesia riduce gli sforzi di ricerca degli iperparametri del 96,67% e migliora il benchmark UnlearnCanvas per gli oggetti del 9,22%. Inoltre, dimostra una notevole scalabilità nel disapprendimento sequenziale, aumentando l'accuratezza del 28,4% nell'eliminazione di nove oggetti, segnando un progresso significativo nella cancellazione controllata di concetti nei modelli diffusivi.
Fatti principali
- SAEmnesia è un framework di autoencoder sparsi supervisionato per il disapprendimento di concetti nei modelli diffusivi.
- Impone mappature uno-a-uno concetto-neurone per superare la frammentazione delle caratteristiche.
- Il metodo riduce la ricerca degli iperparametri del 96,67% rispetto ai metodi di disapprendimento basati su autoencoder sparsi all'avanguardia.
- SAEmnesia ottiene un miglioramento del 9,22% sul benchmark UnlearnCanvas per gli oggetti.
- Migliora l'accuratezza del 28,4% quando si rimuovono sequenzialmente nove oggetti.
- Il framework consente una cancellazione di concetti altamente mirata ed efficiente.
- L'etichettatura dei concetti durante l'addestramento raggiunge la centralizzazione delle caratteristiche.
- Il lavoro è pubblicato su arXiv con identificativo 2509.21379.
Entità
Istituzioni
- arXiv