Il Metodo SQSD Quantifica il Degrado della Sicurezza a Livello di Campione nel Fine-Tuning degli LLM

ai-technology · 2026-05-07

Un nuovo studio da arXiv (2605.04572) rivela che il fine-tuning di modelli linguistici di grandi dimensioni (LLM) su campioni benigni può causare una deriva cumulativa dei parametri verso direzioni pericolose, erodendo progressivamente i comportamenti di sicurezza appresi da milioni di esempi di preferenza. Gli autori propongono la Quantificazione a Livello di Campione del Degrado della Sicurezza (SQSD), un metodo che calcola punteggi di rischio continui per ogni campione di addestramento analizzando le dinamiche dei parametri durante il fine-tuning. Questo approccio identifica quali campioni contribuiscono maggiormente al degrado della sicurezza, consentendo una mitigazione mirata. La ricerca evidenzia la fragilità dell'allineamento alla sicurezza e fornisce uno strumento granulare per valutare i rischi del fine-tuning a livello di campione.

Fatti principali

L'allineamento alla sicurezza degli LLM è fragile; il fine-tuning su campioni benigni può cancellare i comportamenti di sicurezza.
Studi esistenti confrontano i parametri prima e dopo il fine-tuning ma ignorano l'evoluzione dinamica.
Il fine-tuning benigno causa una deriva cumulativa dei parametri verso direzioni pericolose.
I campioni che contribuiscono maggiormente alla deriva comportano rischi maggiori per il fine-tuning.
SQSD quantifica l'influenza di ogni campione di addestramento sul degrado della sicurezza.
Il metodo calcola punteggi di rischio continui per singoli campioni.
Lo studio è pubblicato su arXiv con ID 2605.04572.
La ricerca fornisce uno strumento granulare per valutare i rischi del fine-tuning.

Il Metodo SQSD Quantifica il Degrado della Sicurezza a Livello di Campione nel Fine-Tuning degli LLM

Fatti principali

Entità

Istituzioni

Fonti