ARTFEED — Contemporary Art Intelligence

Attacchi nello spazio latente eludono il rifiuto nei modelli linguistici

ai-technology · 2026-05-23

Un nuovo articolo su arXiv riformula la soppressione del rifiuto nei modelli linguistici allineati alla sicurezza come un attacco di evasione nello spazio latente contro sonde lineari. Gli autori mostrano che la direzione della differenza delle medie dei lavori precedenti definisce una sonda, e la sua ablazione è una proiezione sul confine decisionale—un attacco di evasione a minima confidenza. Ciò spiega il successo empirico ma rivela una limitazione: l'evasione si ferma al confine, motivando ulteriori ricerche. Lo studio fornisce una spiegazione basata su principi della trasformazione indotta dai metodi di soppressione del rifiuto.

Fatti principali

  • arXiv:2605.21706v1
  • I modelli linguistici allineati alla sicurezza rifiutano richieste dannose
  • Il comportamento di rifiuto può essere soppresso manipolando le rappresentazioni interne
  • I metodi esistenti ablatano una direzione di rifiuto dalle attivazioni del modello
  • Mancanza di una spiegazione basata su principi della trasformazione nello spazio latente
  • Riformula la soppressione del rifiuto come attacco di evasione nello spazio latente contro sonde lineari
  • La direzione della differenza delle medie definisce una sonda
  • L'ablazione è una proiezione sul confine decisionale
  • Attacco di evasione a minima confidenza
  • Limitazione: l'evasione si ferma al confine decisionale

Entità

Istituzioni

  • arXiv

Fonti