ARTFEED — Contemporary Art Intelligence

Attivazioni Massive nei Diffusion Transformers Rivelano Come i Prompt Modellano le Immagini

ai-technology · 2026-05-16

Un nuovo studio da arXiv (2605.13974) rivela che nei Diffusion Transformers (DiT) e nelle architetture basate su flusso, un piccolo sottoinsieme di canali dello stato nascosto—definiti 'attivazioni massive'—è responsabile del disegno dell'intera immagine. Nonostante la loro scarsità, questi canali sono funzionalmente critici: azzerarli provoca un netto collasso nella qualità della generazione, mentre disturbare i canali a bassa statistica ha un effetto marginale. Sono organizzati spazialmente, con i token del flusso immagine che si raggruppano in partizioni coerenti allineate con i soggetti principali e le regioni salienti, esponendo layout spaziali strutturati. I risultati gettano luce sui meccanismi interni della generazione testo-immagine.

Fatti principali

  • Lo studio si concentra sui Diffusion Transformers (DiT) e sulle architetture basate su flusso
  • Le attivazioni massive sono un piccolo sottoinsieme di canali dello stato nascosto con risposte costantemente più grandi
  • Azzerare i canali massivi provoca un netto collasso nella qualità della generazione
  • Disturbare i canali a bassa statistica ha un effetto marginale
  • I canali massivi sono organizzati spazialmente
  • I token del flusso immagine si raggruppano in partizioni coerenti allineate con i soggetti principali e le regioni salienti
  • La ricerca espone layout spaziali strutturati nei DiT
  • L'articolo è disponibile su arXiv con ID 2605.13974

Entità

Istituzioni

  • arXiv

Fonti