Proposto un metodo di interpretabilità per Transformer basato su attenzione e gradiente
I ricercatori hanno introdotto un nuovo metodo per interpretare i modelli Transformer guidando la direzione del gradiente, in particolare la direzione dell'attenzione, per ottenere un'interpretazione più completa delle regioni caratteristiche e dei dettagli. L'approccio sfrutta le differenze nel modo in cui il Vision Transformer (ViT) e gli esseri umani percepiscono le immagini, consentendo una riscrittura delle classi quasi impercettibile all'occhio umano, il che potrebbe comportare rischi per la sicurezza in determinati scenari. Il lavoro è pubblicato su arXiv con il titolo 'Transformer Interpretability from Perspective of Attention and Gradient'.
Fatti principali
- Il metodo guida la direzione del gradiente per interpretare i Transformer.
- Si concentra sulle prospettive di attenzione e gradiente.
- Fornisce un'interpretazione più completa delle regioni caratteristiche.
- Offre un'interpretazione dei dettagli.
- Sfrutta le differenze tra ViT e percezione umana.
- La riscrittura delle classi è quasi impercettibile per gli esseri umani.
- Potrebbe comportare rischi per la sicurezza in determinati scenari.
- Pubblicato su arXiv.
Entità
Istituzioni
- arXiv