I Vision Transformer si allineano all'attenzione umana senza costi aggiuntivi
Ricercatori di un'istituzione non divulgata hanno perfezionato il Vision Transformer ViT-B/16 di Google su mappe di fissazione della salienza umana per migliorare l'allineamento cognitivo. Lo studio, pubblicato su arXiv, mostra che il fine-tuning sui dati di attenzione umana induce tre caratteristiche umane distintive: un passaggio dal bias anti-umano per oggetti grandi a una preferenza per oggetti piccoli, una maggiore preferenza per l'animazione e una ridotta entropia estrema dell'attenzione. L'analisi di parità bayesiana conferma che questo allineamento non degrada le prestazioni di classificazione su ImageNet. Il lavoro affronta il divario cognitivo tra ViT e l'elaborazione visiva umana, suggerendo che l'interpretabilità può essere migliorata senza sacrificare l'accuratezza.
Fatti principali
- ViT-B/16 perfezionato su mappe di fissazione della salienza umana
- Cinque metriche di salienza migliorate significativamente
- Tre bias umani indotti: oggetti piccoli, animazione, entropia
- L'analisi di parità bayesiana mostra nessun costo per le prestazioni di classificazione
- ImageNet utilizzato per la valutazione delle prestazioni
- ID del paper arXiv: 2604.20027
- Pubblicato nell'aprile 2026
- Architettura ViT-B/16 di Google utilizzata
Entità
Istituzioni
- arXiv