Boa: Primo Sistema per Risolvere il Problema dell'Oracolo di Jailbreak per LLM
I ricercatori hanno introdotto il problema dell'oracolo di jailbreak, una formalizzazione per valutare la vulnerabilità degli LLM agli attacchi di jailbreak, determinando se è possibile generare una risposta che superi una soglia di probabilità specificata. Risolvere questo problema è computazionalmente impegnativo a causa della crescita esponenziale dello spazio di ricerca. Presentano Boa, il primo sistema progettato per risolvere efficientemente il problema dell'oracolo di jailbreak utilizzando una strategia di ricerca in due fasi: campionamento breadth-first per identificare jailbreak facilmente accessibili, seguito da una ricerca depth-first prioritaria guidata da punteggi di sicurezza granulari. Questo lavoro affronta una lacuna critica di sicurezza poiché gli LLM sono sempre più utilizzati in applicazioni critiche per la sicurezza.
Fatti principali
- Il problema dell'oracolo di jailbreak è introdotto per valutare sistematicamente la vulnerabilità degli LLM agli attacchi di jailbreak.
- Il problema chiede se è possibile generare una risposta di jailbreak con una probabilità superiore a una soglia specificata.
- Risolvere il problema è computazionalmente impegnativo a causa della crescita esponenziale dello spazio di ricerca con la lunghezza della risposta.
- Boa è il primo sistema progettato per risolvere efficientemente il problema dell'oracolo di jailbreak.
- Boa utilizza una strategia di ricerca in due fasi: campionamento breadth-first e poi ricerca depth-first prioritaria.
- La ricerca depth-first è guidata da punteggi di sicurezza granulari.
- La ricerca è pubblicata su arXiv con ID 2506.17299.
- Il lavoro affronta una lacuna critica di sicurezza per gli LLM in applicazioni critiche per la sicurezza.
Entità
Istituzioni
- arXiv