LogiBreak: Espressioni Logiche Eludono le Restrizioni di Sicurezza degli LLM
I ricercatori hanno introdotto LogiBreak, un nuovo metodo di jailbreak black-box che converte prompt dannosi in linguaggio naturale in espressioni logiche formali per aggirare i sistemi di sicurezza dei grandi modelli linguistici (LLM). Il metodo sfrutta le discrepanze distributive tra i prompt orientati all'allineamento e gli input basati sulla logica, preservando l'intento semantico e la leggibilità mentre elude i vincoli di sicurezza. LogiBreak è stato valutato su un dataset multilingue di jailbreak in tre lingue, dimostrando efficacia in varie impostazioni di valutazione e contesti linguistici. La ricerca è pubblicata su arXiv nella categoria informatica.
Fatti principali
- LogiBreak è un metodo di jailbreak black-box per LLM.
- Converte prompt dannosi in espressioni logiche formali.
- Sfrutta i divari distribuzionali tra dati di allineamento e input basati sulla logica.
- Preserva l'intento semantico e la leggibilità.
- Valutato su un dataset multilingue di jailbreak in tre lingue.
- Dimostra efficacia in varie impostazioni di valutazione.
- Pubblicato su arXiv (2505.13527).
- La ricerca è nell'ambito dell'informatica (Calcolo e Linguaggio).
Entità
Istituzioni
- arXiv