Dall'allucinazione all'azione: nuova superficie d'attacco negli agenti multimodali
Un recente studio pubblicato su arXiv (2605.19192) affronta una significativa falla di sicurezza negli agenti AI multimodali, in particolare la conversione di allucinazioni in azioni. Quando un'affermazione visiva fuorviante porta a un'azione importante, come un clic, un'email o una transazione finanziaria, si verifica un errore di autorizzazione anziché un semplice problema di qualità. Per contrastare ciò, gli autori introducono agenti multimodali con prove (ECA). Questo approccio considera il testo libero del modello come inammissibile, scompone ogni invocazione di strumento in predicati essenziali e acquisisce certificati tipizzati da controlli DOM, OCR e accessibilità ristretti. Viene impiegato un gate deterministico per garantire che vengano concessi solo privilegi autorizzati. L'architettura trasforma le credenze poco chiare del modello in verificatori, schemi e residui di implementazione identificabili. I test su oltre 1.900 attacchi rivelano questi residui. Il documento rientra nelle categorie cs.CR, cs.AI e cs.LG.
Fatti principali
- Il paper arXiv 2605.19192 formalizza la conversione da allucinazione ad azione
- False affermazioni visive possono attivare azioni privilegiate (clic, email, trasferimento)
- Propone agenti multimodali con prove (ECA)
- ECA utilizza verificatori DOM/OCR/AX vincolati per certificati tipizzati
- Gate deterministico concede solo privilegi supportati
- Red-teaming dei verificatori su oltre 1.900 attacchi
- Categorie: cs.CR, cs.AI, cs.LG
- L'architettura converte la credenza del modello in residui del verificatore
Entità
Istituzioni
- arXiv