ARTFEED — Contemporary Art Intelligence

Attacco Backdoor Sfrutta il Ranking nella Pianificazione del Modello del Mondo

ai-technology · 2026-05-06

Un nuovo studio da arXiv (2605.01950) rivela che i modelli del mondo, che utilizzano l'immaginazione interna per la pianificazione a lungo termine, sono vulnerabili a un nuovo attacco backdoor chiamato TRAP. A differenza degli attacchi tradizionali che mirano a caratteristiche locali o previsioni a un passo, TRAP sfrutta la struttura di ranking a coda lunga delle traiettorie immaginate. Interrompendo l'ordinamento di poche traiettorie critiche per le decisioni, l'attacco può dirottare sistematicamente la pianificazione. Questa vulnerabilità è distinta perché le dinamiche apprese dei modelli del mondo e i processi di pianificazione possono assorbire perturbazioni superficiali, rendendoli resistenti ai metodi backdoor convenzionali. La ricerca evidenzia un nuovo rischio di sicurezza negli agenti AI che si affidano ai modelli del mondo per il processo decisionale.

Fatti principali

  • Il paper arXiv 2605.01950 introduce l'attacco backdoor TRAP
  • TRAP prende di mira i modelli del mondo utilizzati per la pianificazione a lungo termine
  • L'attacco sfrutta la struttura di ranking a coda lunga delle traiettorie immaginate
  • Interrompere l'ordinamento delle traiettorie critiche per le decisioni dirotta la pianificazione
  • I modelli del mondo possono assorbire perturbazioni superficiali, resistendo agli attacchi tradizionali
  • La vulnerabilità è distinta dagli attacchi a caratteristiche locali o previsioni a un passo
  • La ricerca evidenzia un nuovo rischio di sicurezza per gli agenti AI generalisti
  • Lo studio è pubblicato su arXiv con annuncio di tipo cross

Entità

Istituzioni

  • arXiv

Fonti