La ricerca rivela una crescita esponenziale negli attacchi di jailbreak sui LLM allineati alla sicurezza

ai-technology · 2026-04-20

Un documento di ricerca pubblicato su arXiv dimostra che gli attacchi avversari di prompt injection possono aumentare drasticamente il tasso di successo del jailbreaking dei grandi modelli linguistici allineati alla sicurezza. Lo studio, identificato dalla pre-stampa arXiv:2603.11331v2, mostra che attacchi forti possono spostare i tassi di successo degli attacchi da una crescita polinomiale a una crescita esponenziale all'aumentare del numero di campioni al momento dell'inferenza. I ricercatori hanno prima stabilito un meccanismo statistico minimo che spiega entrambi i regimi di scaling attraverso specifiche ipotesi sulle distribuzioni di generazione sicura tra i contesti. Per spiegare ulteriormente questo fenomeno, il documento propone un modello generativo teorico del linguaggio proxy utilizzando un sistema di vetro di spin che opera in un regime di rottura della simmetria delle repliche. In questo modello, le generazioni sono tratte dalla misura di Gibbs associata, con un sottoinsieme di cluster a bassa energia e polarizzati per dimensione designati come non sicuri. Il quadro teorico realizza naturalmente le ipotesi minime identificate in precedenza. La ricerca esamina specificamente come brevi prompt iniettati corrispondano a questi meccanismi di attacco. Questo lavoro fornisce importanti approfondimenti sulle vulnerabilità dei sistemi di IA allineati alla sicurezza. I risultati hanno implicazioni significative per la ricerca e lo sviluppo della sicurezza dell'IA. Il documento rappresenta un contributo tecnico alla comprensione degli attacchi avversari sui modelli linguistici.

Fatti principali

Gli attacchi avversari possono indirizzare i grandi modelli linguistici allineati alla sicurezza verso comportamenti non sicuri
I forti attacchi avversari di prompt injection amplificano i tassi di successo degli attacchi da una crescita polinomiale a una crescita esponenziale
La ricerca identifica un meccanismo statistico minimo per entrambi i regimi di scaling
Un modello generativo teorico utilizza un sistema di vetro di spin in regime di rottura della simmetria delle repliche
Le generazioni sono tratte dalla misura di Gibbs associata nel modello proposto
Un sottoinsieme di cluster a bassa energia e polarizzati per dimensione è designato come non sicuro
Il modello teorico realizza naturalmente le ipotesi minime identificate
La ricerca esamina come brevi prompt iniettati corrispondano ai meccanismi di attacco

La ricerca rivela una crescita esponenziale negli attacchi di jailbreak sui LLM allineati alla sicurezza

Fatti principali

Entità

Istituzioni

Fonti