Robot controllati da LLM vulnerabili ad attacchi di denial-of-service semantico

ai-technology · 2026-04-30

Uno studio recente indica che i robot controllati da grandi modelli linguistici (LLM) presentano una vulnerabilità a causa della loro aderenza ai protocolli di sicurezza. Un attaccante può sfruttare questa vulnerabilità inserendo brevi frasi dal suono sicuro (1-5 token) nell'input audio del robot, causando l'interruzione o la cessazione delle operazioni da parte della logica di sicurezza del modello, senza bisogno di bypassare le protezioni del modello. Questo tipo di attacco denial-of-service semantico porta il robot a fermarsi, poiché le frasi iniettate assomigliano a avvisi validi. L'indagine ha valutato quattro modelli visione-linguaggio, sette difese a livello di prompt e tre configurazioni di deployment, inclusi sia iniezioni singole che multiple. I risultati rivelano che le difese basate solo su prompt compromettono tra la mitigazione degli attacchi e la risposta a pericoli reali. Mentre le difese più efficaci riducono il successo degli attacchi di arresto forzato in alcuni modelli, esse trasformano semplicemente l'interruzione in cicli di riconoscimento e falsi allarmi.

Fatti principali

Il seguire istruzioni orientate alla sicurezza nei robot controllati da LLM crea una superficie di attacco per la disponibilità.
Brevi frasi plausibili di sicurezza (1-5 token) iniettate nel canale audio di un robot possono attivare il ragionamento di sicurezza per fermare o interrompere l'esecuzione.
L'attacco non richiede il jailbreak del modello o la sostituzione della sua policy.
L'attacco è un denial-of-service semantico: l'agente si ferma perché il segnale iniettato assomiglia a un avviso legittimo.
Sono stati testati quattro modelli visione-linguaggio.
Sono state valutate sette difese a livello di prompt.
Sono state considerate tre modalità di deployment.
Le difese basate solo su prompt scambiano la soppressione degli attacchi con la risposta a pericoli genuini.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29