I Prompt Auto-Estratti Difficili Riducono il Successo del Jailbreak ma Aumentano i Tassi di Rifiuto

ai-technology · 2026-05-07

Una nuova tecnica di safety fine-tuning per modelli linguistici è stata introdotta dai ricercatori. Questo metodo valuta i potenziali prompt in base alla frequenza di giudizi dannosi provenienti dai rollout del modello target stesso e si adatta utilizzando i prompt più impegnativi insieme a rollout non jailbroken. Applicato a Llama-3-8B-Instruct e Llama-3.2-3B-Instruct, riduce il tasso di successo degli attacchi WildJailbreak dall'11,5% e 20,1% a tra l'1% e il 3%. Tuttavia, aumenta il tasso di rifiuto per prompt benigni che assomigliano a jailbreak dal 14-22% al 74-94%. Mescolando prompt difficili con quelli benigni avversari in un rapporto 1:1, i tassi di rifiuto scendono al 30-51% per 8B e al 52-72% per 3B, con una leggera riduzione dell'ASR del 2-6 punti percentuali. L'addestramento sulla metà più difficile dei prompt idonei all'interno di questo approccio misto riduce ulteriormente l'ASR del 35-50%, circa 3 punti percentuali. Questo metodo è descritto in un articolo disponibile su arXiv (2605.03226).

Fatti principali

Il metodo assegna un punteggio ai prompt in base alla frequenza con cui i rollout del modello target vengono giudicati dannosi.
Si adatta sui prompt più difficili abbinati a rollout non jailbroken.
Testato su Llama-3-8B-Instruct e Llama-3.2-3B-Instruct.
ASR di WildJailbreak ridotto dall'11,5% e 20,1% all'1-3%.
Il rifiuto su prompt benigni simili a jailbreak è aumentato dal 14-22% al 74-94%.
L'alternanza di prompt difficili con quelli benigni avversari in rapporto 1:1 riduce il rifiuto al 30-51% (8B) e 52-72% (3B).
Il regime misto costa 2-6 punti percentuali di ASR.
L'addestramento sulla metà più difficile del pool idoneo riduce l'ASR rimanente del 35-50%.

I Prompt Auto-Estratti Difficili Riducono il Successo del Jailbreak ma Aumentano i Tassi di Rifiuto

Fatti principali

Entità

Istituzioni

Fonti