Rilevamento di Jailbreak Cross-linguistico tramite Codebook Semantici

ai-technology · 2026-04-30

Uno studio recente pubblicato su arXiv (2604.25716) introduce un metodo per rilevare attacchi di jailbreak cross-linguistici su modelli linguistici di grandi dimensioni (LLM) che non richiede addestramento. Questa tecnica sfrutta la similarità semantica indipendente dalla lingua abbinando gli embedding di query multilingue con un codebook statico inglese di prompt di jailbreak, fungendo da salvaguardia esterna per LLM black-box. I ricercatori hanno testato il loro approccio su quattro lingue, due pipeline di traduzione, quattro benchmark di sicurezza e tre modelli di embedding, concentrandosi su tre LLM target: Qwen, Llama e GPT-3.5. I risultati indicano due distinti regimi di trasferimento cross-linguistico, con benchmark curati che rivelano pattern tipici di jailbreak. Questa ricerca evidenzia una vulnerabilità critica di sicurezza dove le misure di sicurezza incentrate sull'inglese sono insufficienti in contesti multilingue, come studi precedenti hanno indicato che tradurre prompt dannosi in altre lingue aumenta i tassi di successo del jailbreak.

Fatti principali

L'articolo arXiv 2604.25716 propone un metodo di rilevamento di jailbreak cross-linguistico
Il metodo utilizza la similarità semantica indipendente dalla lingua con un codebook inglese fisso
L'approccio è senza addestramento e funge da guardrail esterno per LLM black-box
La valutazione copre quattro lingue, due pipeline di traduzione, quattro benchmark di sicurezza, tre modelli di embedding
I LLM target includono Qwen, Llama e GPT-3.5
I risultati mostrano due distinti regimi di trasferimento cross-linguistico
Lavori precedenti mostrano che tradurre prompt dannosi aumenta i tassi di successo del jailbreak
Affronta le vulnerabilità dei meccanismi di sicurezza incentrati sull'inglese nella distribuzione multilingue

Rilevamento di Jailbreak Cross-linguistico tramite Codebook Semantici

Fatti principali

Entità

Istituzioni

Fonti