RouteGuard rileva l'avvelenamento delle competenze negli agenti LLM tramite dirottamento dell'attenzione
Un nuovo preprint su arXiv (2604.22888) introduce RouteGuard, un metodo di rilevamento per l'avvelenamento delle competenze negli agenti LLM. A differenza del tradizionale injection di prompt indiretto, l'avvelenamento delle competenze nasconde istruzioni dannose all'interno di competenze legittime orientate all'azione. Gli autori identificano il dirottamento dell'attenzione come meccanismo sottostante, in cui gli spostamenti di attenzione in fase di risposta passano dal contesto fidato a porzioni di competenze dannose. RouteGuard è un rilevatore a backbone congelato che combina attenzione condizionata dalla risposta e allineamento dello stato nascosto attraverso una fusione tardiva basata su affidabilità. Valutato su benchmark di competenze open-source reali e sintetici, raggiunge un F1 di 0,8834 sul canale critico Skill-Inject e recupera il 90,51% dell'accuratezza della descrizione, superando o eguagliando costantemente i rilevatori più forti.
Fatti principali
- RouteGuard rileva l'avvelenamento delle competenze negli agenti LLM
- L'avvelenamento delle competenze è una nuova forma di injection indiretta
- Gli attaccanti nascondono istruzioni dannose in competenze orientate all'azione
- Il dirottamento dell'attenzione è l'effetto interno sfruttato dall'avvelenamento
- RouteGuard utilizza attenzione condizionata dalla risposta e allineamento dello stato nascosto
- Impiega una fusione tardiva basata su affidabilità
- Valutato su benchmark di competenze open-source reali e sintetici
- Raggiunge un F1 di 0,8834 sul canale Skill-Inject
- Recupera il 90,51% dell'accuratezza della descrizione
- Pubblicato su arXiv con ID 2604.22888
Entità
Istituzioni
- arXiv