La Salienza Semantica Controfattuale Rivela il Divario nella Percezione della Scena tra VLM e Umani

ai-technology · 2026-05-14

Un nuovo framework black-box, la Salienza Semantica Controfattuale (CSS), quantifica come i modelli visione-linguaggio (VLM) differiscono dagli umani nella comprensione della scena. Il metodo misura l'importanza degli oggetti rimuovendoli causalmente dalla scena e tracciando lo spostamento semantico. Testato su 307 scene naturali con 1.306 varianti controfattuali e 16.289 risposte umane, i ricercatori hanno scoperto che i VLM si affidano eccessivamente a oggetti grandi, posizionamento centrale e alta salienza rispetto agli umani. Lo studio evidenzia un pervasivo divario di comprensione nell'allineamento semantico AI-umano.

Fatti principali

La Salienza Semantica Controfattuale (CSS) è un framework black-box e agnostico rispetto al modello.
CSS misura l'importanza degli oggetti tramite ablazione causale e spostamento semantico.
Testato su 307 scene naturali complesse e 1.306 varianti controfattuali.
16.289 risposte umane valide hanno formato la baseline psicofisica.
I VLM mostrano un bias dimensionale: eccessiva dipendenza da oggetti grandi rispetto agli umani.
I VLM mostrano un bias centrale: eccessiva dipendenza da oggetti al centro dell'immagine.
I VLM si affidano eccessivamente a oggetti ad alta salienza.
Lo studio rivela un pervasivo divario di comprensione della scena tra AI e umani.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14