Attacco RAG-Pull sfrutta Unicode per iniettare codice malevolo tramite Retrieval-Augmented Generation
I ricercatori hanno sviluppato RAG-Pull, un attacco black-box che sfrutta i sistemi di Retrieval-Augmented Generation (RAG) inserendo caratteri Unicode invisibili nelle query o nei repository di codice esterni. Questa manipolazione reindirizza il recupero verso snippet controllati dall'attaccante, rompendo l'allineamento di sicurezza del modello. L'attacco può raggiungere un successo quasi perfetto quando sia la query che il target vengono perturbati, consentendo exploit come l'esecuzione remota di codice e l'iniezione SQL. RAG-Pull rappresenta una nuova classe di attacchi agli LLM, evidenziando le vulnerabilità nella dipendenza dei RAG da dati esterni.
Fatti principali
- RAG-Pull è un attacco black-box ai sistemi di Retrieval-Augmented Generation.
- Inserisce caratteri UTF nascosti nelle query o nei repository di codice esterni.
- L'attacco reindirizza il recupero verso codice malevolo.
- Le perturbazioni combinate di query e target raggiungono un successo quasi perfetto.
- Gli exploit includono esecuzione remota di codice e iniezione SQL.
- L'attacco rompe l'allineamento di sicurezza del modello.
- Perturbazioni minime possono aumentare la preferenza per codice non sicuro.
- La ricerca è stata pubblicata su arXiv (2510.11195).
Entità
Istituzioni
- arXiv