Attacco Backdoor Dinamico Basato sull'Emozione per LLM

ai-technology · 2026-05-13

Un nuovo metodo di attacco backdoor, Paraesthesia, prende di mira i modelli linguistici di grandi dimensioni (LLM) utilizzando l'emozione come trigger dinamico anziché token statici. L'attacco sfrutta l'osservazione che l'emozione può essere disaccoppiata dalla semantica nello spazio di rappresentazione degli LLM, formando cluster distinti. Mescolando campioni emotivamente attivati nei dati di fine-tuning puliti, il modello diventa vulnerabile alla produzione di output dannosi quando sono presenti segnali emotivi. Questo approccio migliora la furtività e la resilienza contro il rilevamento rispetto agli attacchi tradizionali a livello di token.

Fatti principali

Le vulnerabilità backdoor esistono nel fine-tuning degli LLM.
La maggior parte degli attacchi precedenti utilizza trigger a livello di token.
I trigger statici sono facili da rilevare e indebolire con fine-tuning pulito.
L'emozione funge da fattore stilistico complessivo attraverso il tono.
L'emozione può essere disaccoppiata dalla semantica nello spazio di rappresentazione degli LLM.
Paraesthesia utilizza l'emozione come trigger backdoor dinamico.
L'attacco mescola campioni trigger emotivi con dati puliti.
Il metodo è proposto in un articolo su arXiv (2605.11612).

Attacco Backdoor Dinamico Basato sull'Emozione per LLM

Fatti principali

Entità

Istituzioni

Fonti