Attacchi Avversariali Universali su Modelli Visione-Linguaggio: Una Valutazione a Doppia Dimensione

ai-technology · 2026-05-06

Un recente studio pubblicato su arXiv (2605.01449) mette in discussione la comprensione dei tassi di successo degli attacchi avversariali universali su modelli linguistici multimodali allineati. Ricerche precedenti hanno indicato un tasso di successo tra il 60-80%, ma gli autori sostengono che questa cifra fonde due fenomeni distinti: Influenza (modifica dell'output) e Iniezione Precisa (consegna del concetto inteso dall'attaccante). Integrano l'Attacco Avversariale Universale e AnyAttack entro un budget L_inf di 16/255, proponendo una valutazione a due assi che impiega un punteggio di drift deterministico Ratcliff-Obershelp per l'Influenza e una scala ordinale a quattro livelli per l'Iniezione Precisa. DeepSeek-V4-Pro funge da giudice in modalità pensiero, calibrato rispetto a Claude Opus 4.7, raggiungendo un Cohen's κ = 0.77 sull'asse di iniezione, che riflette un accordo considerevole. La ricerca mira a chiarire le metriche di vulnerabilità nei modelli visione-linguaggio.

Fatti principali

L'articolo arXiv 2605.01449 critica i tassi di successo degli attacchi avversariali universali su LLM multimodali.
Sostiene che il successo del 60-80% confonde Influenza e Iniezione Precisa.
Combina Attacco Avversariale Universale e AnyAttack sotto un budget L_inf di 16/255.
Introduce una valutazione a due assi: punteggio di drift Ratcliff-Obershelp per l'Influenza, scala ordinale a 4 livelli per l'Iniezione Precisa.
Utilizza DeepSeek-V4-Pro in modalità pensiero come giudice.
Calibrato rispetto a Claude Opus 4.7 con Cohen's κ = 0.77 sull'asse di iniezione.
Si concentra sul districare le metriche di vulnerabilità nei modelli visione-linguaggio.

Attacchi Avversariali Universali su Modelli Visione-Linguaggio: Una Valutazione a Doppia Dimensione

Fatti principali

Entità

Istituzioni

Fonti