Adattatori di Sicurezza Disaccoppiati Consentono Guardrail AI Efficienti
I ricercatori propongono Disentangled Safety Adapters (DSA), un framework che disaccoppia i calcoli di sicurezza da un modello base ottimizzato per il compito utilizzando adattatori leggeri. I guardrail basati su DSA superano i modelli autonomi fino al 53% in AUC nella classificazione dei discorsi d'odio, nel rilevamento di input/output non sicuri e nel rilevamento di allucinazioni. L'approccio consente una regolazione dinamica della forza di allineamento durante l'inferenza e compromessi granulari con il seguire le istruzioni, minimizzando i costi di inferenza.
Fatti principali
- DSA disaccoppia i calcoli specifici per la sicurezza da un modello base ottimizzato per il compito.
- DSA utilizza adattatori leggeri che sfruttano le rappresentazioni interne del modello base.
- I guardrail basati su DSA superano i modelli autonomi di dimensioni comparabili fino al 53% in AUC.
- I compiti includono la classificazione dei discorsi d'odio, il rilevamento di input/risposte non sicuri e il rilevamento di allucinazioni.
- DSA consente una regolazione dinamica della forza di allineamento durante l'inferenza.
- DSA permette un compromesso granulare tra il seguire le istruzioni e la sicurezza.
- Il framework affronta le sfide di efficienza e flessibilità nei paradigmi di sicurezza AI esistenti.
- L'articolo è disponibile su arXiv con identificatore 2506.00166.
Entità
Istituzioni
- arXiv