ARTFEED — Contemporary Art Intelligence

I Vision Transformer si allineano all'attenzione umana senza costi aggiuntivi

ai-technology · 2026-04-24

Ricercatori di un'istituzione non divulgata hanno perfezionato il Vision Transformer ViT-B/16 di Google su mappe di fissazione della salienza umana per migliorare l'allineamento cognitivo. Lo studio, pubblicato su arXiv, mostra che il fine-tuning sui dati di attenzione umana induce tre caratteristiche umane distintive: un passaggio dal bias anti-umano per oggetti grandi a una preferenza per oggetti piccoli, una maggiore preferenza per l'animazione e una ridotta entropia estrema dell'attenzione. L'analisi di parità bayesiana conferma che questo allineamento non degrada le prestazioni di classificazione su ImageNet. Il lavoro affronta il divario cognitivo tra ViT e l'elaborazione visiva umana, suggerendo che l'interpretabilità può essere migliorata senza sacrificare l'accuratezza.

Fatti principali

  • ViT-B/16 perfezionato su mappe di fissazione della salienza umana
  • Cinque metriche di salienza migliorate significativamente
  • Tre bias umani indotti: oggetti piccoli, animazione, entropia
  • L'analisi di parità bayesiana mostra nessun costo per le prestazioni di classificazione
  • ImageNet utilizzato per la valutazione delle prestazioni
  • ID del paper arXiv: 2604.20027
  • Pubblicato nell'aprile 2026
  • Architettura ViT-B/16 di Google utilizzata

Entità

Istituzioni

  • Google
  • arXiv

Fonti