Proposto un metodo di interpretabilità per Transformer basato su attenzione e gradiente

ai-technology · 2026-05-13

I ricercatori hanno introdotto un nuovo metodo per interpretare i modelli Transformer guidando la direzione del gradiente, in particolare la direzione dell'attenzione, per ottenere un'interpretazione più completa delle regioni caratteristiche e dei dettagli. L'approccio sfrutta le differenze nel modo in cui il Vision Transformer (ViT) e gli esseri umani percepiscono le immagini, consentendo una riscrittura delle classi quasi impercettibile all'occhio umano, il che potrebbe comportare rischi per la sicurezza in determinati scenari. Il lavoro è pubblicato su arXiv con il titolo 'Transformer Interpretability from Perspective of Attention and Gradient'.

Fatti principali

Il metodo guida la direzione del gradiente per interpretare i Transformer.
Si concentra sulle prospettive di attenzione e gradiente.
Fornisce un'interpretazione più completa delle regioni caratteristiche.
Offre un'interpretazione dei dettagli.
Sfrutta le differenze tra ViT e percezione umana.
La riscrittura delle classi è quasi impercettibile per gli esseri umani.
Potrebbe comportare rischi per la sicurezza in determinati scenari.
Pubblicato su arXiv.

Proposto un metodo di interpretabilità per Transformer basato su attenzione e gradiente

Fatti principali

Entità

Istituzioni

Fonti