PoisonForge Benchmark Rivela la Vulnerabilità degli LLM all'Avvelenamento dei Dati a Livello di Compito
Un nuovo standard noto come PoisonForge rivela la suscettibilità dei modelli linguistici di grandi dimensioni (LLM) addestrati con istruzioni alla manipolazione tramite avvelenamento dei dati a livello di compito. I ricercatori valutano questa minaccia attraverso quattro fattori: tipo di bias, metodo di avvelenamento, frequenza di comparsa e lunghezza dell'output target. Analizzano 12 modelli open-weight, da 2B a 32B parametri, appartenenti a cinque famiglie di modelli, utilizzando principalmente un budget di avvelenamento dell'1%. Con solo 10 istanze avvelenate su 1.000 esempi di fine-tuning, 11 modelli su 12 raggiungono un tasso di successo dell'attacco (ASR) superiore al 70% nelle loro impostazioni più suscettibili. La perdita verso compiti non target rimane al di sotto dello 0,5%, mentre i modelli performano efficacemente sui benchmark standard. I risultati sottolineano una significativa vulnerabilità di sicurezza nella catena di approvvigionamento dei dati per il fine-tuning degli LLM.
Fatti principali
- PoisonForge è un benchmark per l'avvelenamento mirato a livello di compito degli LLM addestrati con istruzioni.
- La minaccia è parametrizzata lungo quattro dimensioni: tipo di bias, modalità di avvelenamento, numero di apparizioni e lunghezza dell'output target.
- Sono stati valutati 12 modelli open-weight da 2B a 32B parametri appartenenti a cinque famiglie.
- È stato utilizzato principalmente un budget di avvelenamento dell'1%.
- 10 esempi avvelenati su 1.000 esempi di fine-tuning hanno causato a 11 modelli su 12 di superare il 70% di ASR.
- La perdita involontaria verso compiti non target è inferiore allo 0,5%.
- I modelli mantengono le prestazioni sui benchmark standard.
- Il benchmark è introdotto nell'articolo arXiv 2605.23168.
Entità
Istituzioni
- arXiv