ARTFEED — Contemporary Art Intelligence

Registri a Doppio Stadio Affrontano i Token Anomali nei Transformers Diffusivi

ai-technology · 2026-05-07

Un nuovo studio da arXiv indaga i token anomali nei Transformers Diffusivi (DiT) per la generazione di immagini. I ricercatori hanno scoperto che sia l'encoder che il denoiser nei moderni pipeline Representation Autoencoder (RAE)-DiT producono token anomali—token con norma elevata che attirano un'attenzione eccessiva pur trasportando informazioni locali limitate. Questo fenomeno, precedentemente osservato nei Vision Transformers (ViT), era poco esplorato nei modelli generativi. Il team ha scoperto che semplicemente mascherare i token ad alta norma non migliora le prestazioni, indicando che il problema è legato alla semantica corrotta delle patch locali piuttosto che solo a valori estremi. Per affrontare ciò, propongono i Registri a Doppio Stadio (DSR), un intervento basato su registri per entrambi i componenti. DSR utilizza registri addestrati per mitigare i token anomali, migliorando le prestazioni del modello. L'articolo è disponibile su arXiv con ID 2605.05206.

Fatti principali

  • I token anomali appaiono sia nell'encoder che nel denoiser dei pipeline RAE-DiT.
  • Mascherare i token ad alta norma non migliora le prestazioni.
  • Il problema è legato alla semantica corrotta delle patch locali.
  • I Registri a Doppio Stadio (DSR) sono proposti come soluzione.
  • DSR è un intervento basato su registri per encoder e denoiser.
  • La ricerca proviene dal preprint arXiv 2605.05206.
  • Lavori precedenti hanno identificato token anomali nei Vision Transformers.
  • Lo studio si concentra sulla generazione di immagini usando Transformers Diffusivi.

Entità

Istituzioni

  • arXiv

Fonti