Il framework TRIAD prevede attacchi conversazionali multimodali
Un nuovo articolo su arXiv (2605.18988) introduce il framework Triple-tier Anomaly Defense (TRIAD) per difendersi da nuovi attacchi multimodali multi-turno contro i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). La ricerca identifica che gli avversari utilizzano perturbazioni progressive cross-modali attraverso traiettorie conversazionali per eludere le barriere di sicurezza specifiche per turno. Le difese statiche falliscono a causa della proprietà di Markov. TRIAD modella la verifica della sicurezza come previsione dinamica di sopravvivenza, monitorando gli spostamenti di covarianza con una distanza di Mahalanobis regolarizzata di Ledoit-Wolf.
Fatti principali
- Articolo arXiv 2605.18988
- Titolo: Sopravvivere all'invisibile: Difesa predittiva per nuovi attacchi multimodali multi-turno
- Introduce il framework TRIAD (Triple-tier Anomaly Defense)
- Affronta la superficie di attacco non stazionaria negli MLLM
- Gli avversari utilizzano perturbazioni progressive cross-modali
- Le difese statiche sono limitate dalla proprietà di Markov
- Formula la sicurezza come previsione dinamica di sopravvivenza
- Utilizza la distanza di Mahalanobis regolarizzata di Ledoit-Wolf
Entità
Istituzioni
- arXiv