Adattatori di Sicurezza Disaccoppiati Consentono Guardrail AI Efficienti

ai-technology · 2026-05-04

I ricercatori propongono Disentangled Safety Adapters (DSA), un framework che disaccoppia i calcoli di sicurezza da un modello base ottimizzato per il compito utilizzando adattatori leggeri. I guardrail basati su DSA superano i modelli autonomi fino al 53% in AUC nella classificazione dei discorsi d'odio, nel rilevamento di input/output non sicuri e nel rilevamento di allucinazioni. L'approccio consente una regolazione dinamica della forza di allineamento durante l'inferenza e compromessi granulari con il seguire le istruzioni, minimizzando i costi di inferenza.

Fatti principali

DSA disaccoppia i calcoli specifici per la sicurezza da un modello base ottimizzato per il compito.
DSA utilizza adattatori leggeri che sfruttano le rappresentazioni interne del modello base.
I guardrail basati su DSA superano i modelli autonomi di dimensioni comparabili fino al 53% in AUC.
I compiti includono la classificazione dei discorsi d'odio, il rilevamento di input/risposte non sicuri e il rilevamento di allucinazioni.
DSA consente una regolazione dinamica della forza di allineamento durante l'inferenza.
DSA permette un compromesso granulare tra il seguire le istruzioni e la sicurezza.
Il framework affronta le sfide di efficienza e flessibilità nei paradigmi di sicurezza AI esistenti.
L'articolo è disponibile su arXiv con identificatore 2506.00166.

Adattatori di Sicurezza Disaccoppiati Consentono Guardrail AI Efficienti

Fatti principali

Entità

Istituzioni

Fonti