BehaviorGuard: Difesa Online dai Backdoor per il Deep Reinforcement Learning

ai-technology · 2026-05-09

Un nuovo framework chiamato BehaviorGuard propone una difesa online, indipendente dai trigger, contro gli attacchi backdoor nel deep reinforcement learning (DRL). A differenza dei metodi esistenti che si basano su anomalie nelle ricompense e sul fine-tuning del modello, BehaviorGuard rileva i backdoor monitorando i cambiamenti nelle distribuzioni delle azioni, anche in assenza di trigger. Identifica comportamenti sospetti nelle regioni ad alto quantile e nelle code della distribuzione, quindi sopprime le azioni backdoor a runtime. L'approccio mira a ridurre i costi e migliorare la robustezza contro pattern di trigger complessi. L'articolo è pubblicato su arXiv con ID 2605.05977.

Fatti principali

BehaviorGuard è un framework di rilevamento e mitigazione dei backdoor online basato sul comportamento per il DRL.
È indipendente dai trigger, rilevando i backdoor tramite cambiamenti nelle distribuzioni delle azioni.
Le politiche backdoorate lasciano tracce rilevabili nelle regioni ad alto quantile e nelle code della distribuzione.
Il framework sopprime le azioni backdoor a runtime.
Mira a superare i limiti delle difese attuali che si basano su anomalie nelle ricompense e sul fine-tuning.
L'articolo è disponibile su arXiv con ID 2605.05977.

BehaviorGuard: Difesa Online dai Backdoor per il Deep Reinforcement Learning

Fatti principali

Entità

Istituzioni

Fonti