Confusione dei Confini di Fiducia nei Sistemi Agentici Visione-Linguaggio

ai-technology · 2026-04-24

Un nuovo studio da arXiv (2604.19844) identifica una vulnerabilità di sicurezza nei Sistemi Agentici Visione-Linguaggio (VLAS) incarnati, basati su grandi modelli visione-linguaggio (LVLM). La ricerca introduce il concetto di "confusione dei confini di fiducia", in cui gli agenti faticano a distinguere tra segnali ambientali legittimi (es. semafori) e iniezioni visive ingannevoli progettate per sovrascrivere l'intenzione dell'utente. Gli autori hanno progettato un dataset a doppia intenzione e un framework di valutazione, testando 7 agenti LVLM e scoprendo che ignorano segnali utili o seguono quelli dannosi. Il lavoro evidenzia una sfida fondamentale nel distribuire sistemi di IA che percepiscono scene del mondo reale.

Fatti principali

Il paper arXiv 2604.19844 introduce la confusione dei confini di fiducia nei VLAS
Le iniezioni visive possono sovrascrivere l'intenzione dell'utente negli agenti basati su LVLM
Creato un dataset a doppia intenzione e un framework di valutazione
Valutati sistematicamente 7 agenti LVLM
Gli agenti non riescono a bilanciare tra ignorare segnali utili e seguire quelli dannosi
La ricerca si concentra sui Sistemi Agentici Visione-Linguaggio incarnati
Segnali ambientali come i semafori sono in banda ma possono essere imitati

Confusione dei Confini di Fiducia nei Sistemi Agentici Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti