ARTFEED — Contemporary Art Intelligence

REFUSALGUARD: Preservare la Sicurezza degli LLM Durante il Fine-Tuning

ai-technology · 2026-05-06

Un nuovo articolo su arXiv (2605.01913) introduce REFUSALGUARD, un framework per mantenere la sicurezza nei modelli linguistici di grandi dimensioni durante il fine-tuning. Il fine-tuning standard degrada il comportamento di rifiuto distorcendo le rappresentazioni rilevanti per la sicurezza nello spazio di attivazione, aumentando la conformità dannosa. REFUSALGUARD preserva la struttura geometrica di queste rappresentazioni, prevenendo il degrado dell'allineamento.

Fatti principali

  • L'articolo arXiv 2605.01913 introduce REFUSALGUARD
  • Il fine-tuning standard degrada il comportamento di rifiuto degli LLM allineati alla sicurezza
  • Le caratteristiche rilevanti per la sicurezza sono codificate in rappresentazioni strutturate nello spazio di attivazione
  • Il fine-tuning induce deriva sistematica e distorsione nelle rappresentazioni della sicurezza
  • L'interferenza tra l'ottimizzazione del compito e le caratteristiche di sicurezza aumenta la conformità dannosa
  • REFUSALGUARD è un framework di fine-tuning a livello di rappresentazione
  • REFUSALGUARD preserva la struttura rilevante per la sicurezza durante il fine-tuning

Entità

Istituzioni

  • arXiv

Fonti