LogiBreak: Espressioni Logiche Eludono le Restrizioni di Sicurezza degli LLM

ai-technology · 2026-04-25

I ricercatori hanno introdotto LogiBreak, un nuovo metodo di jailbreak black-box che converte prompt dannosi in linguaggio naturale in espressioni logiche formali per aggirare i sistemi di sicurezza dei grandi modelli linguistici (LLM). Il metodo sfrutta le discrepanze distributive tra i prompt orientati all'allineamento e gli input basati sulla logica, preservando l'intento semantico e la leggibilità mentre elude i vincoli di sicurezza. LogiBreak è stato valutato su un dataset multilingue di jailbreak in tre lingue, dimostrando efficacia in varie impostazioni di valutazione e contesti linguistici. La ricerca è pubblicata su arXiv nella categoria informatica.

Fatti principali

LogiBreak è un metodo di jailbreak black-box per LLM.
Converte prompt dannosi in espressioni logiche formali.
Sfrutta i divari distribuzionali tra dati di allineamento e input basati sulla logica.
Preserva l'intento semantico e la leggibilità.
Valutato su un dataset multilingue di jailbreak in tre lingue.
Dimostra efficacia in varie impostazioni di valutazione.
Pubblicato su arXiv (2505.13527).
La ricerca è nell'ambito dell'informatica (Calcolo e Linguaggio).

LogiBreak: Espressioni Logiche Eludono le Restrizioni di Sicurezza degli LLM

Fatti principali

Entità

Istituzioni

Fonti