ARTFEED — Contemporary Art Intelligence

LogiBreak: Espressioni Logiche Eludono le Restrizioni di Sicurezza degli LLM

ai-technology · 2026-04-25

I ricercatori hanno introdotto LogiBreak, un nuovo metodo di jailbreak black-box che converte prompt dannosi in linguaggio naturale in espressioni logiche formali per aggirare i sistemi di sicurezza dei grandi modelli linguistici (LLM). Il metodo sfrutta le discrepanze distributive tra i prompt orientati all'allineamento e gli input basati sulla logica, preservando l'intento semantico e la leggibilità mentre elude i vincoli di sicurezza. LogiBreak è stato valutato su un dataset multilingue di jailbreak in tre lingue, dimostrando efficacia in varie impostazioni di valutazione e contesti linguistici. La ricerca è pubblicata su arXiv nella categoria informatica.

Fatti principali

  • LogiBreak è un metodo di jailbreak black-box per LLM.
  • Converte prompt dannosi in espressioni logiche formali.
  • Sfrutta i divari distribuzionali tra dati di allineamento e input basati sulla logica.
  • Preserva l'intento semantico e la leggibilità.
  • Valutato su un dataset multilingue di jailbreak in tre lingue.
  • Dimostra efficacia in varie impostazioni di valutazione.
  • Pubblicato su arXiv (2505.13527).
  • La ricerca è nell'ambito dell'informatica (Calcolo e Linguaggio).

Entità

Istituzioni

  • arXiv

Fonti