La riscrittura con LLM difende dagli attacchi di avvelenamento dei dati
Un team di ricercatori propone l'uso della riscrittura tramite modelli linguistici di grandi dimensioni (LLM) come strategia preventiva per contrastare gli attacchi backdoor (BA) derivanti dall'avvelenamento dei dati. Questo approccio, chiamato riscrittura benigna a libro aperto (OBBR), mira ad aumentare la probabilità di output benigni mappando i campioni di addestramento in uno spazio di prompt sicuro. Nei test che hanno coinvolto cinque BA noti e quattro LLM popolari, OBBR ha dimostrato un miglioramento del 51% nelle prestazioni di sicurezza rispetto alle difese leader. I risultati sono dettagliati in uno studio disponibile su arXiv con l'identificatore 2605.19147.
Fatti principali
- Gli LLM sono altamente suscettibili agli attacchi backdoor (BA) tramite campioni di addestramento avvelenati.
- Le difese esistenti sono inefficaci contro molti pattern di BA.
- OBBR utilizza campioni benigni a libro aperto per la riscrittura.
- OBBR garantisce teoricamente una maggiore probabilità di output benigno rispetto alla riscrittura a libro chiuso.
- OBBR neutralizza i contenuti dannosi proiettandoli in uno spazio di prompt benigno.
- Testato su cinque BA noti e quattro LLM ampiamente utilizzati.
- OBBR aumenta le prestazioni di sicurezza del 51% in media.
- Articolo pubblicato su arXiv con identificatore 2605.19147.
Entità
Istituzioni
- arXiv