ARTFEED — Contemporary Art Intelligence

Rilevamento di Jailbreak Cross-linguistico tramite Codebook Semantici

ai-technology · 2026-04-30

Uno studio recente pubblicato su arXiv (2604.25716) introduce un metodo per rilevare attacchi di jailbreak cross-linguistici su modelli linguistici di grandi dimensioni (LLM) che non richiede addestramento. Questa tecnica sfrutta la similarità semantica indipendente dalla lingua abbinando gli embedding di query multilingue con un codebook statico inglese di prompt di jailbreak, fungendo da salvaguardia esterna per LLM black-box. I ricercatori hanno testato il loro approccio su quattro lingue, due pipeline di traduzione, quattro benchmark di sicurezza e tre modelli di embedding, concentrandosi su tre LLM target: Qwen, Llama e GPT-3.5. I risultati indicano due distinti regimi di trasferimento cross-linguistico, con benchmark curati che rivelano pattern tipici di jailbreak. Questa ricerca evidenzia una vulnerabilità critica di sicurezza dove le misure di sicurezza incentrate sull'inglese sono insufficienti in contesti multilingue, come studi precedenti hanno indicato che tradurre prompt dannosi in altre lingue aumenta i tassi di successo del jailbreak.

Fatti principali

  • L'articolo arXiv 2604.25716 propone un metodo di rilevamento di jailbreak cross-linguistico
  • Il metodo utilizza la similarità semantica indipendente dalla lingua con un codebook inglese fisso
  • L'approccio è senza addestramento e funge da guardrail esterno per LLM black-box
  • La valutazione copre quattro lingue, due pipeline di traduzione, quattro benchmark di sicurezza, tre modelli di embedding
  • I LLM target includono Qwen, Llama e GPT-3.5
  • I risultati mostrano due distinti regimi di trasferimento cross-linguistico
  • Lavori precedenti mostrano che tradurre prompt dannosi aumenta i tassi di successo del jailbreak
  • Affronta le vulnerabilità dei meccanismi di sicurezza incentrati sull'inglese nella distribuzione multilingue

Entità

Istituzioni

  • arXiv

Fonti