Robot controllati da LLM vulnerabili ad attacchi di denial-of-service semantico
Uno studio recente indica che i robot controllati da grandi modelli linguistici (LLM) presentano una vulnerabilità a causa della loro aderenza ai protocolli di sicurezza. Un attaccante può sfruttare questa vulnerabilità inserendo brevi frasi dal suono sicuro (1-5 token) nell'input audio del robot, causando l'interruzione o la cessazione delle operazioni da parte della logica di sicurezza del modello, senza bisogno di bypassare le protezioni del modello. Questo tipo di attacco denial-of-service semantico porta il robot a fermarsi, poiché le frasi iniettate assomigliano a avvisi validi. L'indagine ha valutato quattro modelli visione-linguaggio, sette difese a livello di prompt e tre configurazioni di deployment, inclusi sia iniezioni singole che multiple. I risultati rivelano che le difese basate solo su prompt compromettono tra la mitigazione degli attacchi e la risposta a pericoli reali. Mentre le difese più efficaci riducono il successo degli attacchi di arresto forzato in alcuni modelli, esse trasformano semplicemente l'interruzione in cicli di riconoscimento e falsi allarmi.
Fatti principali
- Il seguire istruzioni orientate alla sicurezza nei robot controllati da LLM crea una superficie di attacco per la disponibilità.
- Brevi frasi plausibili di sicurezza (1-5 token) iniettate nel canale audio di un robot possono attivare il ragionamento di sicurezza per fermare o interrompere l'esecuzione.
- L'attacco non richiede il jailbreak del modello o la sostituzione della sua policy.
- L'attacco è un denial-of-service semantico: l'agente si ferma perché il segnale iniettato assomiglia a un avviso legittimo.
- Sono stati testati quattro modelli visione-linguaggio.
- Sono state valutate sette difese a livello di prompt.
- Sono state considerate tre modalità di deployment.
- Le difese basate solo su prompt scambiano la soppressione degli attacchi con la risposta a pericoli genuini.
Entità
—