Confusione dei Confini di Fiducia nei Sistemi Agentici Visione-Linguaggio
Un nuovo studio da arXiv (2604.19844) identifica una vulnerabilità di sicurezza nei Sistemi Agentici Visione-Linguaggio (VLAS) incarnati, basati su grandi modelli visione-linguaggio (LVLM). La ricerca introduce il concetto di "confusione dei confini di fiducia", in cui gli agenti faticano a distinguere tra segnali ambientali legittimi (es. semafori) e iniezioni visive ingannevoli progettate per sovrascrivere l'intenzione dell'utente. Gli autori hanno progettato un dataset a doppia intenzione e un framework di valutazione, testando 7 agenti LVLM e scoprendo che ignorano segnali utili o seguono quelli dannosi. Il lavoro evidenzia una sfida fondamentale nel distribuire sistemi di IA che percepiscono scene del mondo reale.
Fatti principali
- Il paper arXiv 2604.19844 introduce la confusione dei confini di fiducia nei VLAS
- Le iniezioni visive possono sovrascrivere l'intenzione dell'utente negli agenti basati su LVLM
- Creato un dataset a doppia intenzione e un framework di valutazione
- Valutati sistematicamente 7 agenti LVLM
- Gli agenti non riescono a bilanciare tra ignorare segnali utili e seguire quelli dannosi
- La ricerca si concentra sui Sistemi Agentici Visione-Linguaggio incarnati
- Segnali ambientali come i semafori sono in banda ma possono essere imitati
Entità
Istituzioni
- arXiv