ARTFEED — Contemporary Art Intelligence

Benchmark DIQ-H testa la robustezza dei VLM in condizioni visive avversarie

ai-technology · 2026-04-30

Il benchmark DIQ-H (Degraded Image Quality Leading to Hallucinations) è stato lanciato per valutare i modelli visione-linguaggio (VLM) in ambienti visivi difficili su sequenze continue. Riproduce sfide reali, tra cui sfocatura da movimento, rumore del sensore e artefatti di compressione, per valutare come queste distorsioni portino a imprecisioni persistenti e output disallineati nel tempo. Modellando esplicitamente la propagazione degli errori, questo benchmark colma le lacune lasciate dai benchmark attuali che si concentrano su input statici o curati, trascurando problemi come il disallineamento dei valori e le incoerenze nel ragionamento cumulativo. Questa iniziativa è essenziale per lo sviluppo dell'IA incarnata e per applicazioni in settori critici per la sicurezza come la robotica e i sistemi autonomi.

Fatti principali

  • DIQ-H è il primo benchmark a valutare i VLM in condizioni visive avversarie su sequenze continue.
  • Simula sfocatura da movimento, rumore del sensore e artefatti di compressione.
  • Il benchmark misura errori persistenti e output disallineati nel tempo.
  • Modella esplicitamente la propagazione degli errori.
  • I benchmark esistenti trascurano condizioni avversarie, disallineamento dei valori e propagazione degli errori.
  • I VLM sono essenziali per l'IA incarnata e applicazioni critiche per la sicurezza.
  • Il lavoro è pubblicato su arXiv con ID 2512.03992.
  • Il tipo di annuncio è replace-cross.

Entità

Istituzioni

  • arXiv

Fonti