SPARD: Nuova difesa contro il fine-tuning dannoso dei LLM
È stata introdotta una nuova strategia di difesa denominata SPARD (Safety-Projected Alternating optimization with Relevance-Diversity aware data selection) per proteggere i grandi modelli linguistici da attacchi di fine-tuning dannosi. Questo framework utilizza l'ottimizzazione SPAG (Safety-Projected Alternating Gradient), che alterna aggiornamenti per l'utilità e proiezioni esplicite di sicurezza attraverso una selezione di dati sicuri, imponendo così vincoli di sicurezza durante il processo di fine-tuning. Per assemblare questi dati sicuri, SPARD impiega un processo a punti determinanti con rilevanza-diversità (RD-DPP), che seleziona efficientemente dati sicuri compatti bilanciando la rilevanza del compito con la copertura della sicurezza. I test sui benchmark GSM8K e OpenBookQA hanno rivelato che SPARD ha registrato costantemente i tassi medi di successo degli attacchi più bassi contro quattro attacchi di fine-tuning dannosi, superando significativamente le tecniche di difesa esistenti, garantendo al contempo un'elevata accuratezza del compito. Il codice è accessibile e l'articolo è disponibile su arXiv con ID 2605.28030.
Fatti principali
- SPARD difende dagli attacchi di fine-tuning dannosi sui LLM
- Utilizza l'ottimizzazione SPAG che alterna aggiornamenti di utilità e proiezioni di sicurezza
- Impiega un processo a punti determinanti con rilevanza-diversità per la selezione di dati sicuri
- Testato su GSM8K e OpenBookQA con quattro tipi di attacco
- Ottiene i tassi medi di successo degli attacchi più bassi rispetto allo stato dell'arte
- Mantiene un'elevata accuratezza del compito
- Il codice è disponibile
- arXiv ID: 2605.28030
Entità
Istituzioni
- arXiv