I Vision Transformer si allineano all'attenzione umana senza costi aggiuntivi

ai-technology · 2026-04-24

Ricercatori di un'istituzione non divulgata hanno perfezionato il Vision Transformer ViT-B/16 di Google su mappe di fissazione della salienza umana per migliorare l'allineamento cognitivo. Lo studio, pubblicato su arXiv, mostra che il fine-tuning sui dati di attenzione umana induce tre caratteristiche umane distintive: un passaggio dal bias anti-umano per oggetti grandi a una preferenza per oggetti piccoli, una maggiore preferenza per l'animazione e una ridotta entropia estrema dell'attenzione. L'analisi di parità bayesiana conferma che questo allineamento non degrada le prestazioni di classificazione su ImageNet. Il lavoro affronta il divario cognitivo tra ViT e l'elaborazione visiva umana, suggerendo che l'interpretabilità può essere migliorata senza sacrificare l'accuratezza.

Fatti principali

ViT-B/16 perfezionato su mappe di fissazione della salienza umana
Cinque metriche di salienza migliorate significativamente
Tre bias umani indotti: oggetti piccoli, animazione, entropia
L'analisi di parità bayesiana mostra nessun costo per le prestazioni di classificazione
ImageNet utilizzato per la valutazione delle prestazioni
ID del paper arXiv: 2604.20027
Pubblicato nell'aprile 2026
Architettura ViT-B/16 di Google utilizzata

I Vision Transformer si allineano all'attenzione umana senza costi aggiuntivi

Fatti principali

Entità

Istituzioni

Fonti