SPARD: Nuova difesa contro il fine-tuning dannoso dei LLM

ai-technology · 2026-05-28

È stata introdotta una nuova strategia di difesa denominata SPARD (Safety-Projected Alternating optimization with Relevance-Diversity aware data selection) per proteggere i grandi modelli linguistici da attacchi di fine-tuning dannosi. Questo framework utilizza l'ottimizzazione SPAG (Safety-Projected Alternating Gradient), che alterna aggiornamenti per l'utilità e proiezioni esplicite di sicurezza attraverso una selezione di dati sicuri, imponendo così vincoli di sicurezza durante il processo di fine-tuning. Per assemblare questi dati sicuri, SPARD impiega un processo a punti determinanti con rilevanza-diversità (RD-DPP), che seleziona efficientemente dati sicuri compatti bilanciando la rilevanza del compito con la copertura della sicurezza. I test sui benchmark GSM8K e OpenBookQA hanno rivelato che SPARD ha registrato costantemente i tassi medi di successo degli attacchi più bassi contro quattro attacchi di fine-tuning dannosi, superando significativamente le tecniche di difesa esistenti, garantendo al contempo un'elevata accuratezza del compito. Il codice è accessibile e l'articolo è disponibile su arXiv con ID 2605.28030.

Fatti principali

SPARD difende dagli attacchi di fine-tuning dannosi sui LLM
Utilizza l'ottimizzazione SPAG che alterna aggiornamenti di utilità e proiezioni di sicurezza
Impiega un processo a punti determinanti con rilevanza-diversità per la selezione di dati sicuri
Testato su GSM8K e OpenBookQA con quattro tipi di attacco
Ottiene i tassi medi di successo degli attacchi più bassi rispetto allo stato dell'arte
Mantiene un'elevata accuratezza del compito
Il codice è disponibile
arXiv ID: 2605.28030

SPARD: Nuova difesa contro il fine-tuning dannoso dei LLM

Fatti principali

Entità

Istituzioni

Fonti