Safeguard Pre-Modello Utilizzando Modelli Bozza per la Difesa da Jailbreak nei LLM

ai-technology · 2026-05-20

Un nuovo design di salvaguardia sfrutta la trasferibilità degli attacchi jailbreak dai grandi modelli linguistici (LLM) ai piccoli modelli linguistici (SLM) per imporre la sicurezza del prompt prima dell'inferenza del modello target. L'approccio mira a ridurre i tassi di falsi negativi comuni nei guard pre-modello e a evitare l'alto costo computazionale dei guard post-modello. Lo studio esamina sistematicamente la trasferibilità degli attacchi jailbreak, identificando i fattori chiave che la influenzano. L'articolo è pubblicato su arXiv con identificatore 2605.19321.

Fatti principali

L'articolo arXiv 2605.19321 introduce una salvaguardia pre-modello utilizzando modelli bozza.
Il metodo sfrutta la trasferibilità degli attacchi jailbreak dai LLM agli SLM.
Mira a ridurre i tassi di falsi negativi dei guard pre-modello.
Evita l'alto utilizzo di token e i tempi di elaborazione dei guard post-modello.
Viene condotto uno studio sistematico della trasferibilità degli attacchi jailbreak.
Vengono identificati i fattori chiave che influenzano la trasferibilità.
L'approccio impone la sicurezza del prompt prima dell'inferenza del modello target.
L'articolo è classificato come annuncio cross-type su arXiv.

Safeguard Pre-Modello Utilizzando Modelli Bozza per la Difesa da Jailbreak nei LLM

Fatti principali

Entità

Istituzioni

Fonti