Framework di Sondaggio Consapevole della Sicurezza Previene il Degrado della Sicurezza degli LLM Durante il Fine-Tuning

ai-technology · 2026-04-25

Un nuovo studio da arXiv (2505.16737) introduce un framework di ottimizzazione per sondaggio consapevole della sicurezza (SAP) per impedire ai grandi modelli linguistici di perdere il loro allineamento alla sicurezza durante il fine-tuning. I ricercatori dimostrano che i paesaggi di perdita della sicurezza e delle prestazioni del compito sono parzialmente disaccoppiati, il che significa che gli aggiornamenti che migliorano le prestazioni specifiche del compito possono spostare involontariamente il modello verso regioni non sicure. SAP utilizza segnali di sicurezza contrastivi per identificare direzioni correlate alla sicurezza e ottimizza una sonda leggera per mantenere i vincoli di sicurezza. L'articolo riesamina la domanda fondamentale del perché il fine-tuning su dati non dannosi possa degradare la sicurezza, offrendo una soluzione per preservare l'allineamento senza sacrificare le prestazioni del compito.

Fatti principali

L'articolo arXiv 2505.16737 introduce il framework SAP
I paesaggi di perdita della sicurezza e delle prestazioni del compito sono parzialmente disaccoppiati
Il fine-tuning su dati non dannosi può comunque compromettere la sicurezza
SAP utilizza segnali di sicurezza contrastivi per localizzare direzioni correlate alla sicurezza
Una sonda leggera viene ottimizzata per mantenere la sicurezza durante il fine-tuning
Lo studio affronta il degrado della sicurezza da dati di fine-tuning avversari o benigni
SAP mira a preservare l'allineamento alla sicurezza senza danneggiare le prestazioni del compito

Framework di Sondaggio Consapevole della Sicurezza Previene il Degrado della Sicurezza degli LLM Durante il Fine-Tuning

Fatti principali

Entità

Istituzioni

Fonti