Attacco ADMIT manipola il fact-checking RAG tramite avvelenamento few-shot

ai-technology · 2026-05-18

I ricercatori propongono ADMIT (Adversarial Multi-Injection Technique), un attacco di avvelenamento della conoscenza few-shot che prende di mira i sistemi Retrieval-Augmented Generation (RAG) utilizzati per il fact-checking. A differenza dei lavori precedenti che presupponevano una facile manipolazione, ADMIT opera in contesti realistici in cui le prove credibili dominano il pool di recupero. L'attacco inietta contenuti avversari semanticamente allineati nelle basi di conoscenza, invertendo le decisioni di fact-checking e generando giustificazioni ingannevoli, il tutto senza accesso agli LLM target, ai retriever o al controllo a livello di token. Questo estende l'avvelenamento della conoscenza al fact-checking, dimostrando che anche con prove autentiche a sostegno o confutazione, gli LLM rimangono vulnerabili al contesto manipolato.

Fatti principali

ADMIT è un attacco di avvelenamento few-shot e semanticamente allineato.
Prende di mira i sistemi di fact-checking basati su RAG.
L'attacco inverte le decisioni di fact-checking e induce giustificazioni ingannevoli.
Non richiede accesso agli LLM target, ai retriever o al controllo a livello di token.
Lavori precedenti hanno evidenziato la suscettibilità degli LLM a contenuti recuperati fuorvianti.
Negli scenari reali di fact-checking, le prove credibili dominano il pool di recupero.
ADMIT estende l'avvelenamento della conoscenza al contesto del fact-checking.
L'attacco inietta contenuti avversari nelle basi di conoscenza.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18