SAEmnesia: Autoencoder Sparsi Supervisionati per il Disapprendimento di Concetti nei Modelli Diffusivi

ai-technology · 2026-06-01

Un nuovo framework chiamato SAEmnesia è stato introdotto dai ricercatori, progettato per affrontare il disapprendimento di concetti nei modelli diffusivi attraverso l'implementazione di mappature uno-a-uno tra concetti e neuroni. Questo approccio innovativo affronta efficacemente il problema della frammentazione delle caratteristiche, che complica la rimozione di concetti sparsi su numerose caratteristiche latenti. Etichettando meticolosamente i concetti durante il processo di addestramento, SAEmnesia raggiunge una centralizzazione delle caratteristiche, collegando ogni concetto a un neurone distinto e interpretabile. Rispetto ai principali metodi di disapprendimento basati su autoencoder sparsi, SAEmnesia riduce gli sforzi di ricerca degli iperparametri del 96,67% e migliora il benchmark UnlearnCanvas per gli oggetti del 9,22%. Inoltre, dimostra una notevole scalabilità nel disapprendimento sequenziale, aumentando l'accuratezza del 28,4% nell'eliminazione di nove oggetti, segnando un progresso significativo nella cancellazione controllata di concetti nei modelli diffusivi.

Fatti principali

SAEmnesia è un framework di autoencoder sparsi supervisionato per il disapprendimento di concetti nei modelli diffusivi.
Impone mappature uno-a-uno concetto-neurone per superare la frammentazione delle caratteristiche.
Il metodo riduce la ricerca degli iperparametri del 96,67% rispetto ai metodi di disapprendimento basati su autoencoder sparsi all'avanguardia.
SAEmnesia ottiene un miglioramento del 9,22% sul benchmark UnlearnCanvas per gli oggetti.
Migliora l'accuratezza del 28,4% quando si rimuovono sequenzialmente nove oggetti.
Il framework consente una cancellazione di concetti altamente mirata ed efficiente.
L'etichettatura dei concetti durante l'addestramento raggiunge la centralizzazione delle caratteristiche.
Il lavoro è pubblicato su arXiv con identificativo 2509.21379.

SAEmnesia: Autoencoder Sparsi Supervisionati per il Disapprendimento di Concetti nei Modelli Diffusivi

Fatti principali

Entità

Istituzioni

Fonti