Interventi di plasticità riducono le minacce backdoor nel DRL, tranne SAM
Un nuovo studio da arXiv (2605.14587) indaga sistematicamente come gli interventi di plasticità—componenti integrati degli agenti moderni di deep reinforcement learning (DRL)—influenzano le vulnerabilità agli attacchi backdoor. Analizzando 14.664 casi, i ricercatori hanno scoperto che solo l'intervento Sharpness-Aware Minimization (SAM) aggrava le minacce backdoor a causa dell'amplificazione del gradiente backdoor. Tutti gli altri interventi mitigano le minacce interrompendo i percorsi di attivazione e comprimendo lo spazio di rappresentazione. Il lavoro evidenzia una lacuna critica nella ricerca precedente, che si concentrava su scenari vanilla senza interventi di plasticità, ponendo rischi nelle implementazioni pratiche del DRL.
Fatti principali
- Il paper arXiv 2605.14587 indaga gli interventi di plasticità negli attacchi backdoor nel DRL.
- Sono stati studiati empiricamente 14.664 casi combinando interventi e scenari di attacco.
- Solo l'intervento SAM aggrava le minacce backdoor.
- Altri interventi mitigano le minacce backdoor.
- L'aggravamento è attribuito all'amplificazione del gradiente backdoor.
- La mitigazione deriva dall'interruzione dei percorsi di attivazione e dalla compressione dello spazio di rappresentazione.
- Gli interventi di plasticità sono componenti integrati degli agenti DRL moderni.
- Studi precedenti si concentravano su scenari vanilla senza interventi di plasticità.
Entità
Istituzioni
- arXiv