Il framework REVELIO svela le modalità di fallimento nei modelli visione-linguaggio
Un nuovo framework chiamato REVELIO è stato sviluppato da ricercatori per identificare sistematicamente modalità di fallimento interpretabili nei modelli Visione-Linguaggio (VLM). Questi modelli sono sempre più utilizzati in contesti sensibili alla sicurezza grazie alle loro ampie capacità di ragionamento e generalizzazione, ma possono incontrare gravi fallimenti in particolari scenari del mondo reale. REVELIO caratterizza una modalità di fallimento come una combinazione di concetti interpretabili e rilevanti—come la prossimità di pedoni o condizioni meteorologiche avverse—dove un VLM specifico fallisce costantemente. Per affrontare la sfida di navigare in un vasto spazio combinatorio discreto, REVELIO integra due metodi di ricerca: una beam search attenta alla diversità per mappare il panorama dei fallimenti e un approccio di Thompson Sampling basato su processi gaussiani per un'esplorazione più ampia. Questo framework mira a migliorare l'affidabilità dei VLM in applicazioni critiche, come dettagliato in un articolo su arXiv (2605.12674).
Fatti principali
- REVELIO è un framework per scoprire modalità di fallimento interpretabili nei VLM.
- I VLM sono utilizzati in applicazioni critiche per la sicurezza grazie al loro ampio ragionamento e generalizzazione.
- Le modalità di fallimento sono composizioni di concetti interpretabili e rilevanti per il dominio.
- Esempi di concetti includono la prossimità di pedoni e condizioni meteorologiche avverse.
- Lo spazio di ricerca è esponenzialmente grande e combinatorio discreto.
- REVELIO utilizza beam search attenta alla diversità e Thompson Sampling basato su processi gaussiani.
- L'articolo è disponibile su arXiv con ID 2605.12674.
- Il lavoro mira a migliorare l'affidabilità dei VLM in situazioni critiche.
Entità
Istituzioni
- arXiv