Attacchi nello spazio latente eludono il rifiuto nei modelli linguistici

ai-technology · 2026-05-23

Un nuovo articolo su arXiv riformula la soppressione del rifiuto nei modelli linguistici allineati alla sicurezza come un attacco di evasione nello spazio latente contro sonde lineari. Gli autori mostrano che la direzione della differenza delle medie dei lavori precedenti definisce una sonda, e la sua ablazione è una proiezione sul confine decisionale—un attacco di evasione a minima confidenza. Ciò spiega il successo empirico ma rivela una limitazione: l'evasione si ferma al confine, motivando ulteriori ricerche. Lo studio fornisce una spiegazione basata su principi della trasformazione indotta dai metodi di soppressione del rifiuto.

Fatti principali

arXiv:2605.21706v1
I modelli linguistici allineati alla sicurezza rifiutano richieste dannose
Il comportamento di rifiuto può essere soppresso manipolando le rappresentazioni interne
I metodi esistenti ablatano una direzione di rifiuto dalle attivazioni del modello
Mancanza di una spiegazione basata su principi della trasformazione nello spazio latente
Riformula la soppressione del rifiuto come attacco di evasione nello spazio latente contro sonde lineari
La direzione della differenza delle medie definisce una sonda
L'ablazione è una proiezione sul confine decisionale
Attacco di evasione a minima confidenza
Limitazione: l'evasione si ferma al confine decisionale

Attacchi nello spazio latente eludono il rifiuto nei modelli linguistici

Fatti principali

Entità

Istituzioni

Fonti