Il Metodo SQSD Quantifica il Degrado della Sicurezza a Livello di Campione nel Fine-Tuning degli LLM
Un nuovo studio da arXiv (2605.04572) rivela che il fine-tuning di modelli linguistici di grandi dimensioni (LLM) su campioni benigni può causare una deriva cumulativa dei parametri verso direzioni pericolose, erodendo progressivamente i comportamenti di sicurezza appresi da milioni di esempi di preferenza. Gli autori propongono la Quantificazione a Livello di Campione del Degrado della Sicurezza (SQSD), un metodo che calcola punteggi di rischio continui per ogni campione di addestramento analizzando le dinamiche dei parametri durante il fine-tuning. Questo approccio identifica quali campioni contribuiscono maggiormente al degrado della sicurezza, consentendo una mitigazione mirata. La ricerca evidenzia la fragilità dell'allineamento alla sicurezza e fornisce uno strumento granulare per valutare i rischi del fine-tuning a livello di campione.
Fatti principali
- L'allineamento alla sicurezza degli LLM è fragile; il fine-tuning su campioni benigni può cancellare i comportamenti di sicurezza.
- Studi esistenti confrontano i parametri prima e dopo il fine-tuning ma ignorano l'evoluzione dinamica.
- Il fine-tuning benigno causa una deriva cumulativa dei parametri verso direzioni pericolose.
- I campioni che contribuiscono maggiormente alla deriva comportano rischi maggiori per il fine-tuning.
- SQSD quantifica l'influenza di ogni campione di addestramento sul degrado della sicurezza.
- Il metodo calcola punteggi di rischio continui per singoli campioni.
- Lo studio è pubblicato su arXiv con ID 2605.04572.
- La ricerca fornisce uno strumento granulare per valutare i rischi del fine-tuning.
Entità
Istituzioni
- arXiv