ARTFEED — Contemporary Art Intelligence

Confusione dei Confini di Fiducia nei Sistemi Agentici Visione-Linguaggio

ai-technology · 2026-04-24

Un nuovo studio da arXiv (2604.19844) identifica una vulnerabilità di sicurezza nei Sistemi Agentici Visione-Linguaggio (VLAS) incarnati, basati su grandi modelli visione-linguaggio (LVLM). La ricerca introduce il concetto di "confusione dei confini di fiducia", in cui gli agenti faticano a distinguere tra segnali ambientali legittimi (es. semafori) e iniezioni visive ingannevoli progettate per sovrascrivere l'intenzione dell'utente. Gli autori hanno progettato un dataset a doppia intenzione e un framework di valutazione, testando 7 agenti LVLM e scoprendo che ignorano segnali utili o seguono quelli dannosi. Il lavoro evidenzia una sfida fondamentale nel distribuire sistemi di IA che percepiscono scene del mondo reale.

Fatti principali

  • Il paper arXiv 2604.19844 introduce la confusione dei confini di fiducia nei VLAS
  • Le iniezioni visive possono sovrascrivere l'intenzione dell'utente negli agenti basati su LVLM
  • Creato un dataset a doppia intenzione e un framework di valutazione
  • Valutati sistematicamente 7 agenti LVLM
  • Gli agenti non riescono a bilanciare tra ignorare segnali utili e seguire quelli dannosi
  • La ricerca si concentra sui Sistemi Agentici Visione-Linguaggio incarnati
  • Segnali ambientali come i semafori sono in banda ma possono essere imitati

Entità

Istituzioni

  • arXiv

Fonti