SafeMERGE: Unione Selettiva dei Livelli Ripristina la Sicurezza degli LLM Dopo il Fine-Tuning
I ricercatori hanno introdotto SafeMERGE, un framework post-fine-tuning semplificato progettato per migliorare l'allineamento alla sicurezza nei modelli linguistici di grandi dimensioni (LLM) preservando al contempo le loro prestazioni nei compiti. Il fine-tuning di LLM generalisti per aree specifiche spesso riduce la loro capacità di rifiutare prompt dannosi. Le attuali strategie di riallineamento tendono a essere difficili da implementare o compromettono l'efficacia. SafeMERGE integra selettivamente i livelli di un modello allineato alla sicurezza nella versione fine-tuned solo quando tali livelli mostrano una divergenza dal comportamento sicuro, come indicato dalla similarità coseno. Valutato su quattro LLM e vari compiti, SafeMERGE riduce costantemente gli output dannosi rispetto ad altri metodi, con effetti trascurabili o nulli sulle prestazioni. Questo approccio funge da salvaguardia affidabile e facile da usare per la sicurezza degli LLM.
Fatti principali
- SafeMERGE è un framework post-fine-tuning per LLM
- Ripristina l'allineamento alla sicurezza eroso dal fine-tuning
- Unisce selettivamente i livelli del modello allineato alla sicurezza
- Utilizza il criterio della similarità coseno per rilevare la deviazione
- Testato su quattro LLM e molteplici compiti
- Riduce gli output dannosi rispetto ad altre difese
- Impatto trascurabile o positivo sull'utilità del compito
- Leggero e facile da implementare
Entità
—