Nuovo Benchmark Espone il Collasso della Valutazione nella Spiegabilità dei VLM

ai-technology · 2026-05-23

I ricercatori hanno identificato un difetto fondamentale nel modo in cui viene valutata la spiegabilità dei modelli visione-linguaggio (VLM). Gli attuali spiegatori post-hoc si basano su metriche di perturbazione unimodali che falliscono perché i dataset multimodali contengono prior linguistici e bias di modalità, causando ridondanza cross-modale. Ciò porta a un collasso della valutazione in cui le classifiche visive e testuali si contraddicono a vicenda (τ di Kendall = -0,06). Per affrontare questo problema, il team introduce la Fedeltà Sinergica (F_syn), una metrica basata sull'Indice di Interazione di Shapley che isola i contributi congiunti tra le modalità. F_syn raggiunge un'elevata accuratezza (ρ = 0,92) con un'accelerazione computazionale di 24×. Il benchmark valuta otto spiegatori su più architetture VLM, fornendo uno standard più affidabile per l'interpretazione del ragionamento cross-modale.

Fatti principali

Le attuali metriche di spiegabilità dei VLM soffrono di collasso della valutazione a causa della ridondanza cross-modale.
Il τ di Kendall = -0,06 indica una contraddizione fondamentale tra le classifiche visive e testuali.
La Fedeltà Sinergica (F_syn) si basa sull'Indice di Interazione di Shapley.
F_syn raggiunge un'accuratezza ρ = 0,92 e un'accelerazione computazionale di 24×.
Il benchmark valuta otto spiegatori su più architetture VLM.
I dataset multimodali contengono prior linguistici e bias di modalità.
Le metriche di perturbazione unimodali penalizzano gli spiegatori fedeli.
L'articolo è pubblicato su arXiv con ID 2605.22168.

Nuovo Benchmark Espone il Collasso della Valutazione nella Spiegabilità dei VLM

Fatti principali

Entità

Istituzioni

Fonti