Nuovo Benchmark Espone il Collasso della Valutazione nella Spiegabilità dei VLM
I ricercatori hanno identificato un difetto fondamentale nel modo in cui viene valutata la spiegabilità dei modelli visione-linguaggio (VLM). Gli attuali spiegatori post-hoc si basano su metriche di perturbazione unimodali che falliscono perché i dataset multimodali contengono prior linguistici e bias di modalità, causando ridondanza cross-modale. Ciò porta a un collasso della valutazione in cui le classifiche visive e testuali si contraddicono a vicenda (τ di Kendall = -0,06). Per affrontare questo problema, il team introduce la Fedeltà Sinergica (F_syn), una metrica basata sull'Indice di Interazione di Shapley che isola i contributi congiunti tra le modalità. F_syn raggiunge un'elevata accuratezza (ρ = 0,92) con un'accelerazione computazionale di 24×. Il benchmark valuta otto spiegatori su più architetture VLM, fornendo uno standard più affidabile per l'interpretazione del ragionamento cross-modale.
Fatti principali
- Le attuali metriche di spiegabilità dei VLM soffrono di collasso della valutazione a causa della ridondanza cross-modale.
- Il τ di Kendall = -0,06 indica una contraddizione fondamentale tra le classifiche visive e testuali.
- La Fedeltà Sinergica (F_syn) si basa sull'Indice di Interazione di Shapley.
- F_syn raggiunge un'accuratezza ρ = 0,92 e un'accelerazione computazionale di 24×.
- Il benchmark valuta otto spiegatori su più architetture VLM.
- I dataset multimodali contengono prior linguistici e bias di modalità.
- Le metriche di perturbazione unimodali penalizzano gli spiegatori fedeli.
- L'articolo è pubblicato su arXiv con ID 2605.22168.
Entità
Istituzioni
- arXiv