RouteGuard rileva l'avvelenamento delle competenze negli agenti LLM tramite dirottamento dell'attenzione

ai-technology · 2026-04-29

Un nuovo preprint su arXiv (2604.22888) introduce RouteGuard, un metodo di rilevamento per l'avvelenamento delle competenze negli agenti LLM. A differenza del tradizionale injection di prompt indiretto, l'avvelenamento delle competenze nasconde istruzioni dannose all'interno di competenze legittime orientate all'azione. Gli autori identificano il dirottamento dell'attenzione come meccanismo sottostante, in cui gli spostamenti di attenzione in fase di risposta passano dal contesto fidato a porzioni di competenze dannose. RouteGuard è un rilevatore a backbone congelato che combina attenzione condizionata dalla risposta e allineamento dello stato nascosto attraverso una fusione tardiva basata su affidabilità. Valutato su benchmark di competenze open-source reali e sintetici, raggiunge un F1 di 0,8834 sul canale critico Skill-Inject e recupera il 90,51% dell'accuratezza della descrizione, superando o eguagliando costantemente i rilevatori più forti.

Fatti principali

RouteGuard rileva l'avvelenamento delle competenze negli agenti LLM
L'avvelenamento delle competenze è una nuova forma di injection indiretta
Gli attaccanti nascondono istruzioni dannose in competenze orientate all'azione
Il dirottamento dell'attenzione è l'effetto interno sfruttato dall'avvelenamento
RouteGuard utilizza attenzione condizionata dalla risposta e allineamento dello stato nascosto
Impiega una fusione tardiva basata su affidabilità
Valutato su benchmark di competenze open-source reali e sintetici
Raggiunge un F1 di 0,8834 sul canale Skill-Inject
Recupera il 90,51% dell'accuratezza della descrizione
Pubblicato su arXiv con ID 2604.22888

RouteGuard rileva l'avvelenamento delle competenze negli agenti LLM tramite dirottamento dell'attenzione

Fatti principali

Entità

Istituzioni

Fonti