ARTFEED — Contemporary Art Intelligence

SafeMERGE: Unione Selettiva dei Livelli Ripristina la Sicurezza degli LLM Dopo il Fine-Tuning

ai-technology · 2026-04-25

I ricercatori hanno introdotto SafeMERGE, un framework post-fine-tuning semplificato progettato per migliorare l'allineamento alla sicurezza nei modelli linguistici di grandi dimensioni (LLM) preservando al contempo le loro prestazioni nei compiti. Il fine-tuning di LLM generalisti per aree specifiche spesso riduce la loro capacità di rifiutare prompt dannosi. Le attuali strategie di riallineamento tendono a essere difficili da implementare o compromettono l'efficacia. SafeMERGE integra selettivamente i livelli di un modello allineato alla sicurezza nella versione fine-tuned solo quando tali livelli mostrano una divergenza dal comportamento sicuro, come indicato dalla similarità coseno. Valutato su quattro LLM e vari compiti, SafeMERGE riduce costantemente gli output dannosi rispetto ad altri metodi, con effetti trascurabili o nulli sulle prestazioni. Questo approccio funge da salvaguardia affidabile e facile da usare per la sicurezza degli LLM.

Fatti principali

  • SafeMERGE è un framework post-fine-tuning per LLM
  • Ripristina l'allineamento alla sicurezza eroso dal fine-tuning
  • Unisce selettivamente i livelli del modello allineato alla sicurezza
  • Utilizza il criterio della similarità coseno per rilevare la deviazione
  • Testato su quattro LLM e molteplici compiti
  • Riduce gli output dannosi rispetto ad altre difese
  • Impatto trascurabile o positivo sull'utilità del compito
  • Leggero e facile da implementare

Entità

Fonti