Attacco a Token Sparsi Elude la Sicurezza dei Modelli Linguistici Audio

ai-technology · 2026-05-07

I ricercatori hanno sviluppato un metodo di jailbreak sparso per modelli linguistici audio (ALM) che raggiunge alti tassi di successo degli attacchi aggiornando solo una frazione della forma d'onda audio. Il lavoro, intitolato 'Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization', è stato pubblicato su arXiv (ID: 2605.04700). Il team ha scoperto che l'energia del gradiente negli ALM è concentrata su un piccolo sottoinsieme di regioni audio allineate ai token. Sulla base di ciò, hanno proposto l'ottimizzazione del gradiente consapevole dei token (TAGO), che maschera i gradienti a bassa energia a ogni iterazione, trattenendo solo quelli allineati con i token ad alta energia. Testato su tre ALM, TAGO ha superato le baseline. In particolare, su Qwen3-Omni, il tasso di successo dell'attacco (ASR_l) è rimasto all'86% anche con una sostanziale sparsificazione. Ciò sfida l'assunzione che la perturbazione densa della forma d'onda sia necessaria per il jailbreak, rivelando una vulnerabilità negli attuali meccanismi di sicurezza audio.

Fatti principali

ID del paper arXiv: 2605.04700
Gli attacchi jailbreak agli ALM tipicamente aggiornano l'intera forma d'onda in modo denso
L'energia del gradiente è altamente non uniforme tra i token audio
TAGO consente un'ottimizzazione sparsa mascherando i gradienti a bassa energia
TAGO testato su tre ALM, supera le baseline
Su Qwen3-Omni, ASR_l rimane all'86% con sostanziale sparsificazione
Il metodo rivela una vulnerabilità nei meccanismi di sicurezza audio

Attacco a Token Sparsi Elude la Sicurezza dei Modelli Linguistici Audio

Fatti principali

Entità

Istituzioni

Fonti