ARTFEED — Contemporary Art Intelligence

Nuovo Benchmark Espone il Collasso della Valutazione nella Spiegabilità dei VLM

ai-technology · 2026-05-23

I ricercatori hanno identificato un difetto fondamentale nel modo in cui viene valutata la spiegabilità dei modelli visione-linguaggio (VLM). Gli attuali spiegatori post-hoc si basano su metriche di perturbazione unimodali che falliscono perché i dataset multimodali contengono prior linguistici e bias di modalità, causando ridondanza cross-modale. Ciò porta a un collasso della valutazione in cui le classifiche visive e testuali si contraddicono a vicenda (τ di Kendall = -0,06). Per affrontare questo problema, il team introduce la Fedeltà Sinergica (F_syn), una metrica basata sull'Indice di Interazione di Shapley che isola i contributi congiunti tra le modalità. F_syn raggiunge un'elevata accuratezza (ρ = 0,92) con un'accelerazione computazionale di 24×. Il benchmark valuta otto spiegatori su più architetture VLM, fornendo uno standard più affidabile per l'interpretazione del ragionamento cross-modale.

Fatti principali

  • Le attuali metriche di spiegabilità dei VLM soffrono di collasso della valutazione a causa della ridondanza cross-modale.
  • Il τ di Kendall = -0,06 indica una contraddizione fondamentale tra le classifiche visive e testuali.
  • La Fedeltà Sinergica (F_syn) si basa sull'Indice di Interazione di Shapley.
  • F_syn raggiunge un'accuratezza ρ = 0,92 e un'accelerazione computazionale di 24×.
  • Il benchmark valuta otto spiegatori su più architetture VLM.
  • I dataset multimodali contengono prior linguistici e bias di modalità.
  • Le metriche di perturbazione unimodali penalizzano gli spiegatori fedeli.
  • L'articolo è pubblicato su arXiv con ID 2605.22168.

Entità

Istituzioni

  • arXiv

Fonti