La Salienza Semantica Controfattuale Rivela il Divario nella Percezione della Scena tra VLM e Umani
Un nuovo framework black-box, la Salienza Semantica Controfattuale (CSS), quantifica come i modelli visione-linguaggio (VLM) differiscono dagli umani nella comprensione della scena. Il metodo misura l'importanza degli oggetti rimuovendoli causalmente dalla scena e tracciando lo spostamento semantico. Testato su 307 scene naturali con 1.306 varianti controfattuali e 16.289 risposte umane, i ricercatori hanno scoperto che i VLM si affidano eccessivamente a oggetti grandi, posizionamento centrale e alta salienza rispetto agli umani. Lo studio evidenzia un pervasivo divario di comprensione nell'allineamento semantico AI-umano.
Fatti principali
- La Salienza Semantica Controfattuale (CSS) è un framework black-box e agnostico rispetto al modello.
- CSS misura l'importanza degli oggetti tramite ablazione causale e spostamento semantico.
- Testato su 307 scene naturali complesse e 1.306 varianti controfattuali.
- 16.289 risposte umane valide hanno formato la baseline psicofisica.
- I VLM mostrano un bias dimensionale: eccessiva dipendenza da oggetti grandi rispetto agli umani.
- I VLM mostrano un bias centrale: eccessiva dipendenza da oggetti al centro dell'immagine.
- I VLM si affidano eccessivamente a oggetti ad alta salienza.
- Lo studio rivela un pervasivo divario di comprensione della scena tra AI e umani.
Entità
—