Attacchi Backdoor su LLM Potenziati con KG tramite Soft Prompt
Uno studio recente indica che gli attacchi backdoor mirati ai canali testuali non hanno successo contro i grandi modelli linguistici (LLM) potenziati con grafi di conoscenza (KG) che utilizzano soft prompt. Questi modelli integrano sottografi recuperati in soft prompt continui attraverso reti neurali grafiche, formando una struttura a doppio canale. I ricercatori hanno scoperto un divario di robustezza: gli attacchi mirati ai canali testuali sono inefficaci contro i sistemi basati su soft prompt a causa dell'ancoraggio semantico, dove i soft prompt derivati dai grafi influenzano gli stati nascosti verso una semantica coerente con la query, mitigando così le istruzioni dannose. Questo articolo, accessibile su arXiv (2605.11996v1), sottolinea che l'effetto di ancoraggio deriva dal canale grafico stesso, indicando la necessità di nuove strategie di attacco mirate al canale condizionato dal grafo.
Fatti principali
- L'articolo arXiv 2605.11996v1 esamina gli attacchi backdoor su LLM potenziati con KG tramite soft prompt.
- Gli LLM potenziati con KG utilizzano reti neurali grafiche per codificare sottografi in soft prompt.
- Gli attacchi backdoor sul canale testuale sono in gran parte inefficaci contro i sistemi basati su soft prompt.
- L'ancoraggio semantico dei soft prompt derivati dal grafo sopprime le istruzioni maligne superficiali.
- Il divario di robustezza è dovuto all'effetto di condizionamento del canale grafico.
- Gli attacchi esistenti sono progettati per il canale testuale, non per l'architettura a doppio canale.
- Lo studio richiede nuovi metodi di attacco mirati al canale condizionato dal grafo.
Entità
Istituzioni
- arXiv