BarrierSteer: Sicurezza dei LLM tramite Funzioni Barriera Apprese

ai-technology · 2026-05-25

BarrierSteer introduce un framework innovativo volto a migliorare la sicurezza dei grandi modelli linguistici (LLM) durante l'inferenza, integrando vincoli di sicurezza non lineari appresi nello spazio di rappresentazione latente del modello. Utilizzando classificatori di sicurezza basati sullo stato nascosto come Funzioni Barriera di Controllo (CBF), consente di guidare le traiettorie latenti non sicure attraverso vincoli durante il processo di generazione. Il framework combina efficientemente vari vincoli di sicurezza senza alterare i parametri sottostanti del LLM, mantenendone così l'utilità. I risultati teorici ne convalidano l'efficacia, affrontando la sfida critica degli attacchi avversari e della generazione di contenuti non sicuri in applicazioni LLM ad alto rischio.

Fatti principali

BarrierSteer è un framework di sicurezza a tempo di inferenza per LLM.
Incorpora vincoli di sicurezza non lineari appresi nello spazio di rappresentazione latente.
I classificatori di sicurezza basati sullo stato nascosto sono trattati come Funzioni Barriera di Controllo (CBF).
La guida vincolata delle traiettorie latenti non sicure avviene durante la generazione.
Molteplici vincoli di sicurezza sono composti tramite fusione efficiente.
Non è richiesta alcuna modifica dei parametri sottostanti del LLM.
L'utilità del modello è preservata.
Il framework mira agli attacchi avversari e alla generazione di contenuti non sicuri.

Entità

—

Fonti

arXiv cs.AI — 2026-05-25