Dall'allucinazione all'azione: nuova superficie d'attacco negli agenti multimodali

ai-technology · 2026-05-20

Un recente studio pubblicato su arXiv (2605.19192) affronta una significativa falla di sicurezza negli agenti AI multimodali, in particolare la conversione di allucinazioni in azioni. Quando un'affermazione visiva fuorviante porta a un'azione importante, come un clic, un'email o una transazione finanziaria, si verifica un errore di autorizzazione anziché un semplice problema di qualità. Per contrastare ciò, gli autori introducono agenti multimodali con prove (ECA). Questo approccio considera il testo libero del modello come inammissibile, scompone ogni invocazione di strumento in predicati essenziali e acquisisce certificati tipizzati da controlli DOM, OCR e accessibilità ristretti. Viene impiegato un gate deterministico per garantire che vengano concessi solo privilegi autorizzati. L'architettura trasforma le credenze poco chiare del modello in verificatori, schemi e residui di implementazione identificabili. I test su oltre 1.900 attacchi rivelano questi residui. Il documento rientra nelle categorie cs.CR, cs.AI e cs.LG.

Fatti principali

Il paper arXiv 2605.19192 formalizza la conversione da allucinazione ad azione
False affermazioni visive possono attivare azioni privilegiate (clic, email, trasferimento)
Propone agenti multimodali con prove (ECA)
ECA utilizza verificatori DOM/OCR/AX vincolati per certificati tipizzati
Gate deterministico concede solo privilegi supportati
Red-teaming dei verificatori su oltre 1.900 attacchi
Categorie: cs.CR, cs.AI, cs.LG
L'architettura converte la credenza del modello in residui del verificatore

Dall'allucinazione all'azione: nuova superficie d'attacco negli agenti multimodali

Fatti principali

Entità

Istituzioni

Fonti