SafeMERGE: Unione Selettiva dei Livelli Ripristina la Sicurezza degli LLM Dopo il Fine-Tuning

ai-technology · 2026-04-25

I ricercatori hanno introdotto SafeMERGE, un framework post-fine-tuning semplificato progettato per migliorare l'allineamento alla sicurezza nei modelli linguistici di grandi dimensioni (LLM) preservando al contempo le loro prestazioni nei compiti. Il fine-tuning di LLM generalisti per aree specifiche spesso riduce la loro capacità di rifiutare prompt dannosi. Le attuali strategie di riallineamento tendono a essere difficili da implementare o compromettono l'efficacia. SafeMERGE integra selettivamente i livelli di un modello allineato alla sicurezza nella versione fine-tuned solo quando tali livelli mostrano una divergenza dal comportamento sicuro, come indicato dalla similarità coseno. Valutato su quattro LLM e vari compiti, SafeMERGE riduce costantemente gli output dannosi rispetto ad altri metodi, con effetti trascurabili o nulli sulle prestazioni. Questo approccio funge da salvaguardia affidabile e facile da usare per la sicurezza degli LLM.

Fatti principali

SafeMERGE è un framework post-fine-tuning per LLM
Ripristina l'allineamento alla sicurezza eroso dal fine-tuning
Unisce selettivamente i livelli del modello allineato alla sicurezza
Utilizza il criterio della similarità coseno per rilevare la deviazione
Testato su quattro LLM e molteplici compiti
Riduce gli output dannosi rispetto ad altre difese
Impatto trascurabile o positivo sull'utilità del compito
Leggero e facile da implementare

Entità

—

Fonti

arXiv cs.AI — 2026-04-25