Attacco di Decodifica Vincolata: Nuovo Jailbreak Colpisce le API di Output Strutturato degli LLM

ai-technology · 2026-05-23

I ricercatori hanno identificato una nuova classe di attacchi jailbreak che colpisce i modelli linguistici di grandi dimensioni (LLM) che utilizzano API di output strutturato. L'Attacco di Decodifica Vincolata (CDA) sfrutta la decodifica guidata dalla grammatica, una funzionalità del piano di controllo che impone schemi di output. A differenza dei tradizionali attacchi al piano dati che bypassano l'allineamento attraverso la manipolazione dell'input, il CDA inietta prefissi malevoli tramite il mascheramento dei logit imposto dallo schema durante il processo di decodifica, portando il modello a completare contenuti dannosi. Questo attacco non può essere fermato dal solo allineamento di sicurezza interno. L'articolo introduce EnumAttack come un'istanza del CDA, che nasconde contenuti malevoli in campi di enumerazione. I risultati sono stati pubblicati su arXiv (2503.24191) e mettono in luce una vulnerabilità critica nelle piattaforme di strumenti LLM.

Fatti principali

1. Il CDA è una nuova classe di jailbreak che colpisce il piano di controllo degli LLM.
2. L'attacco sfrutta la decodifica guidata dalla grammatica nelle API di output strutturato.
3. Il CDA utilizza il mascheramento dei logit imposto dallo schema per iniettare prefissi malevoli.
4. A differenza dei jailbreak del piano dati, il CDA agisce sul processo di decodifica stesso.
5. L'allineamento di sicurezza interno non può fermare il CDA.
6. EnumAttack è un'istanza del CDA.
7. L'articolo è stato pubblicato su arXiv con ID 2503.24191.
8. La superficie d'attacco è ortogonale alle vulnerabilità tradizionali del piano dati.

Attacco di Decodifica Vincolata: Nuovo Jailbreak Colpisce le API di Output Strutturato degli LLM

Fatti principali

Entità

Istituzioni

Fonti