REFUSALGUARD: Preservare la Sicurezza degli LLM Durante il Fine-Tuning

ai-technology · 2026-05-06

Un nuovo articolo su arXiv (2605.01913) introduce REFUSALGUARD, un framework per mantenere la sicurezza nei modelli linguistici di grandi dimensioni durante il fine-tuning. Il fine-tuning standard degrada il comportamento di rifiuto distorcendo le rappresentazioni rilevanti per la sicurezza nello spazio di attivazione, aumentando la conformità dannosa. REFUSALGUARD preserva la struttura geometrica di queste rappresentazioni, prevenendo il degrado dell'allineamento.

Fatti principali

L'articolo arXiv 2605.01913 introduce REFUSALGUARD
Il fine-tuning standard degrada il comportamento di rifiuto degli LLM allineati alla sicurezza
Le caratteristiche rilevanti per la sicurezza sono codificate in rappresentazioni strutturate nello spazio di attivazione
Il fine-tuning induce deriva sistematica e distorsione nelle rappresentazioni della sicurezza
L'interferenza tra l'ottimizzazione del compito e le caratteristiche di sicurezza aumenta la conformità dannosa
REFUSALGUARD è un framework di fine-tuning a livello di rappresentazione
REFUSALGUARD preserva la struttura rilevante per la sicurezza durante il fine-tuning

REFUSALGUARD: Preservare la Sicurezza degli LLM Durante il Fine-Tuning

Fatti principali

Entità

Istituzioni

Fonti