Attivazioni Massive nei Diffusion Transformers Rivelano Come i Prompt Modellano le Immagini

ai-technology · 2026-05-16

Un nuovo studio da arXiv (2605.13974) rivela che nei Diffusion Transformers (DiT) e nelle architetture basate su flusso, un piccolo sottoinsieme di canali dello stato nascosto—definiti 'attivazioni massive'—è responsabile del disegno dell'intera immagine. Nonostante la loro scarsità, questi canali sono funzionalmente critici: azzerarli provoca un netto collasso nella qualità della generazione, mentre disturbare i canali a bassa statistica ha un effetto marginale. Sono organizzati spazialmente, con i token del flusso immagine che si raggruppano in partizioni coerenti allineate con i soggetti principali e le regioni salienti, esponendo layout spaziali strutturati. I risultati gettano luce sui meccanismi interni della generazione testo-immagine.

Fatti principali

Lo studio si concentra sui Diffusion Transformers (DiT) e sulle architetture basate su flusso
Le attivazioni massive sono un piccolo sottoinsieme di canali dello stato nascosto con risposte costantemente più grandi
Azzerare i canali massivi provoca un netto collasso nella qualità della generazione
Disturbare i canali a bassa statistica ha un effetto marginale
I canali massivi sono organizzati spazialmente
I token del flusso immagine si raggruppano in partizioni coerenti allineate con i soggetti principali e le regioni salienti
La ricerca espone layout spaziali strutturati nei DiT
L'articolo è disponibile su arXiv con ID 2605.13974

Attivazioni Massive nei Diffusion Transformers Rivelano Come i Prompt Modellano le Immagini

Fatti principali

Entità

Istituzioni

Fonti