Benchmark DIQ-H testa la robustezza dei VLM in condizioni visive avversarie
Il benchmark DIQ-H (Degraded Image Quality Leading to Hallucinations) è stato lanciato per valutare i modelli visione-linguaggio (VLM) in ambienti visivi difficili su sequenze continue. Riproduce sfide reali, tra cui sfocatura da movimento, rumore del sensore e artefatti di compressione, per valutare come queste distorsioni portino a imprecisioni persistenti e output disallineati nel tempo. Modellando esplicitamente la propagazione degli errori, questo benchmark colma le lacune lasciate dai benchmark attuali che si concentrano su input statici o curati, trascurando problemi come il disallineamento dei valori e le incoerenze nel ragionamento cumulativo. Questa iniziativa è essenziale per lo sviluppo dell'IA incarnata e per applicazioni in settori critici per la sicurezza come la robotica e i sistemi autonomi.
Fatti principali
- DIQ-H è il primo benchmark a valutare i VLM in condizioni visive avversarie su sequenze continue.
- Simula sfocatura da movimento, rumore del sensore e artefatti di compressione.
- Il benchmark misura errori persistenti e output disallineati nel tempo.
- Modella esplicitamente la propagazione degli errori.
- I benchmark esistenti trascurano condizioni avversarie, disallineamento dei valori e propagazione degli errori.
- I VLM sono essenziali per l'IA incarnata e applicazioni critiche per la sicurezza.
- Il lavoro è pubblicato su arXiv con ID 2512.03992.
- Il tipo di annuncio è replace-cross.
Entità
Istituzioni
- arXiv