ARTFEED — Contemporary Art Intelligence

Adattatori di Sicurezza Disaccoppiati Consentono Guardrail AI Efficienti

ai-technology · 2026-05-04

I ricercatori propongono Disentangled Safety Adapters (DSA), un framework che disaccoppia i calcoli di sicurezza da un modello base ottimizzato per il compito utilizzando adattatori leggeri. I guardrail basati su DSA superano i modelli autonomi fino al 53% in AUC nella classificazione dei discorsi d'odio, nel rilevamento di input/output non sicuri e nel rilevamento di allucinazioni. L'approccio consente una regolazione dinamica della forza di allineamento durante l'inferenza e compromessi granulari con il seguire le istruzioni, minimizzando i costi di inferenza.

Fatti principali

  • DSA disaccoppia i calcoli specifici per la sicurezza da un modello base ottimizzato per il compito.
  • DSA utilizza adattatori leggeri che sfruttano le rappresentazioni interne del modello base.
  • I guardrail basati su DSA superano i modelli autonomi di dimensioni comparabili fino al 53% in AUC.
  • I compiti includono la classificazione dei discorsi d'odio, il rilevamento di input/risposte non sicuri e il rilevamento di allucinazioni.
  • DSA consente una regolazione dinamica della forza di allineamento durante l'inferenza.
  • DSA permette un compromesso granulare tra il seguire le istruzioni e la sicurezza.
  • Il framework affronta le sfide di efficienza e flessibilità nei paradigmi di sicurezza AI esistenti.
  • L'articolo è disponibile su arXiv con identificatore 2506.00166.

Entità

Istituzioni

  • arXiv

Fonti