Attivazioni Massive nei Diffusion Transformers Rivelano Come i Prompt Modellano le Immagini
Un nuovo studio da arXiv (2605.13974) rivela che nei Diffusion Transformers (DiT) e nelle architetture basate su flusso, un piccolo sottoinsieme di canali dello stato nascosto—definiti 'attivazioni massive'—è responsabile del disegno dell'intera immagine. Nonostante la loro scarsità, questi canali sono funzionalmente critici: azzerarli provoca un netto collasso nella qualità della generazione, mentre disturbare i canali a bassa statistica ha un effetto marginale. Sono organizzati spazialmente, con i token del flusso immagine che si raggruppano in partizioni coerenti allineate con i soggetti principali e le regioni salienti, esponendo layout spaziali strutturati. I risultati gettano luce sui meccanismi interni della generazione testo-immagine.
Fatti principali
- Lo studio si concentra sui Diffusion Transformers (DiT) e sulle architetture basate su flusso
- Le attivazioni massive sono un piccolo sottoinsieme di canali dello stato nascosto con risposte costantemente più grandi
- Azzerare i canali massivi provoca un netto collasso nella qualità della generazione
- Disturbare i canali a bassa statistica ha un effetto marginale
- I canali massivi sono organizzati spazialmente
- I token del flusso immagine si raggruppano in partizioni coerenti allineate con i soggetti principali e le regioni salienti
- La ricerca espone layout spaziali strutturati nei DiT
- L'articolo è disponibile su arXiv con ID 2605.13974
Entità
Istituzioni
- arXiv