Attacchi di Controllo Nascosto su LLM tramite Avvelenamento dei Dati
Un nuovo metodo di avvelenamento dei dati, gli attacchi di controllo nascosto, insegna ai grandi modelli linguistici uno schema di occultamento delle informazioni attraverso associazioni semantiche, consentendo la codifica e decodifica furtiva di istruzioni maligne arbitrarie. Questo approccio supera gli attacchi di injection di prompt basati su euristiche su 5 LLM, 3 difese backdoor e 4 difese da prompt injection con una piccola frazione avvelenata.
Fatti principali
- Il metodo proposto insegna ai LLM uno schema di occultamento delle informazioni tramite associazioni semantiche.
- L'attacco codifica e decodifica istruzioni maligne arbitrarie.
- Valutato su 5 LLM, 3 difese backdoor e 4 difese da prompt injection.
- Supera gli attacchi di injection di prompt basati su euristiche con una piccola frazione avvelenata.
- Difese esistenti come rilevamento di outlier, regolarizzazione su dati puliti o monitoraggio online possono neutralizzare frasi trigger fisse.
- Gli attacchi di controllo nascosto rivelano una nuova sottile vulnerabilità indotta da avvelenamento.
- I LLM sono spesso messi a punto su dataset di testo non curati che gli avversari possono avvelenare.
- Lo schema di occultamento si basa su conoscenze condivise come fatti o concetti.
Entità
Istituzioni
- arXiv