Nuovo framework avversario espone vulnerabilità nelle pipeline NLP black-box
I ricercatori hanno sviluppato un nuovo framework di attacco avversario che espone le vulnerabilità nelle pipeline di elaborazione del linguaggio naturale (NLP) black-box, in particolare quelle utilizzate per il rilevamento della disinformazione. Il framework, chiamato Agentic Adversarial Rewriting, opera sotto un modello di minaccia rigoroso con feedback binario, nessun accesso ai gradienti e un budget di query limitato a 10 query. È composto da due agenti: un Attacker Agent che genera riscritture che preservano il significato e un Prompt Optimization Agent che perfeziona la strategia di attacco utilizzando solo feedback decisionale binario. Valutato su quattro pipeline di rilevamento della disinformazione basate su prove, il framework ha raggiunto tassi di evasione dal 19,95% al 40,34% sui moderni sistemi basati su modelli linguistici di grandi dimensioni (LLM). Al contrario, le baseline di perturbazione a livello di token che si basano su modelli surrogati hanno raggiunto al massimo il 3,90% di evasione perché non possono operare sotto lo stesso modello di minaccia. La ricerca evidenzia significative vulnerabilità architetturali nelle attuali pipeline NLP, in particolare quelle che si basano sugli LLM, e sottolinea la necessità di difese più robuste. Il documento è disponibile su arXiv con l'identificatore 2604.23483.
Fatti principali
- Il framework opera sotto un modello di minaccia black-box rigoroso con feedback binario, nessun accesso ai gradienti e un budget di 10 query.
- È composto da un Attacker Agent e un Prompt Optimization Agent.
- Valutato su quattro pipeline di rilevamento della disinformazione basate su prove.
- Tassi di evasione dal 19,95% al 40,34% sui moderni sistemi basati su LLM.
- Le baseline di perturbazione a livello di token hanno raggiunto al massimo il 3,90% di evasione.
- La ricerca è stata pubblicata su arXiv con l'identificatore 2604.23483.
Entità
Istituzioni
- arXiv