Attacco Backdoor Sfrutta il Ranking nella Pianificazione del Modello del Mondo

ai-technology · 2026-05-06

Un nuovo studio da arXiv (2605.01950) rivela che i modelli del mondo, che utilizzano l'immaginazione interna per la pianificazione a lungo termine, sono vulnerabili a un nuovo attacco backdoor chiamato TRAP. A differenza degli attacchi tradizionali che mirano a caratteristiche locali o previsioni a un passo, TRAP sfrutta la struttura di ranking a coda lunga delle traiettorie immaginate. Interrompendo l'ordinamento di poche traiettorie critiche per le decisioni, l'attacco può dirottare sistematicamente la pianificazione. Questa vulnerabilità è distinta perché le dinamiche apprese dei modelli del mondo e i processi di pianificazione possono assorbire perturbazioni superficiali, rendendoli resistenti ai metodi backdoor convenzionali. La ricerca evidenzia un nuovo rischio di sicurezza negli agenti AI che si affidano ai modelli del mondo per il processo decisionale.

Fatti principali

Il paper arXiv 2605.01950 introduce l'attacco backdoor TRAP
TRAP prende di mira i modelli del mondo utilizzati per la pianificazione a lungo termine
L'attacco sfrutta la struttura di ranking a coda lunga delle traiettorie immaginate
Interrompere l'ordinamento delle traiettorie critiche per le decisioni dirotta la pianificazione
I modelli del mondo possono assorbire perturbazioni superficiali, resistendo agli attacchi tradizionali
La vulnerabilità è distinta dagli attacchi a caratteristiche locali o previsioni a un passo
La ricerca evidenzia un nuovo rischio di sicurezza per gli agenti AI generalisti
Lo studio è pubblicato su arXiv con annuncio di tipo cross

Attacco Backdoor Sfrutta il Ranking nella Pianificazione del Modello del Mondo

Fatti principali

Entità

Istituzioni

Fonti