SAE Temporali Residualizzati per l'Interpretazione dei Modelli di Diffusione

ai-technology · 2026-05-28

Viene introdotto un nuovo metodo chiamato autoencoder sparsi temporali residualizzati (SAE) per interpretare i modelli di diffusione text-to-image. A differenza degli SAE standard che analizzano le attivazioni a singoli passi temporali, questo approccio raccoglie le attivazioni lungo l'intera traiettoria di denoising, adatta predittori lineari tra passi temporali vicini e rappresenta ciascuna traiettoria usando un'attivazione iniziale più componenti residuali non spiegati dalla dinamica lineare. Addestrare un SAE su questa rappresentazione residualizzata cattura la struttura oltre la prevedibilità lineare. L'articolo è disponibile su arXiv con ID 2605.27813.

Fatti principali

Metodo introdotto: autoencoder sparsi temporali residualizzati per traiettorie di attivazione di diffusione.
Le attivazioni vengono raccolte lungo il tempo di denoising.
Predittori lineari vengono adattati tra passi temporali vicini.
Ogni traiettoria è rappresentata da un'attivazione iniziale e componenti residuali.
I componenti residuali catturano la struttura non prevedibile linearmente.
Mirato all'interpretazione dei modelli di diffusione text-to-image.
Articolo pubblicato su arXiv: 2605.27813.
Tipo di annuncio: cross.

SAE Temporali Residualizzati per l'Interpretazione dei Modelli di Diffusione

Fatti principali

Entità

Istituzioni

Fonti