Attacco a Token Sparsi Elude la Sicurezza dei Modelli Linguistici Audio
I ricercatori hanno sviluppato un metodo di jailbreak sparso per modelli linguistici audio (ALM) che raggiunge alti tassi di successo degli attacchi aggiornando solo una frazione della forma d'onda audio. Il lavoro, intitolato 'Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization', è stato pubblicato su arXiv (ID: 2605.04700). Il team ha scoperto che l'energia del gradiente negli ALM è concentrata su un piccolo sottoinsieme di regioni audio allineate ai token. Sulla base di ciò, hanno proposto l'ottimizzazione del gradiente consapevole dei token (TAGO), che maschera i gradienti a bassa energia a ogni iterazione, trattenendo solo quelli allineati con i token ad alta energia. Testato su tre ALM, TAGO ha superato le baseline. In particolare, su Qwen3-Omni, il tasso di successo dell'attacco (ASR_l) è rimasto all'86% anche con una sostanziale sparsificazione. Ciò sfida l'assunzione che la perturbazione densa della forma d'onda sia necessaria per il jailbreak, rivelando una vulnerabilità negli attuali meccanismi di sicurezza audio.
Fatti principali
- ID del paper arXiv: 2605.04700
- Gli attacchi jailbreak agli ALM tipicamente aggiornano l'intera forma d'onda in modo denso
- L'energia del gradiente è altamente non uniforme tra i token audio
- TAGO consente un'ottimizzazione sparsa mascherando i gradienti a bassa energia
- TAGO testato su tre ALM, supera le baseline
- Su Qwen3-Omni, ASR_l rimane all'86% con sostanziale sparsificazione
- Il metodo rivela una vulnerabilità nei meccanismi di sicurezza audio
Entità
Istituzioni
- arXiv