Nuova superficie di iniezione dei prompt negli agenti LLM attraverso le descrizioni degli strumenti
La ricerca indica che gli agenti LLM potenziati da strumenti sono suscettibili all'iniezione di prompt non solo attraverso gli output di questi strumenti, ma anche tramite le loro descrizioni, che l'agente esamina prima dell'attivazione dello strumento. I ricercatori hanno mantenuto il payload di iniezione identico a livello di byte e lo hanno testato su entrambi i canali su 13 LLM di sei diverse famiglie e quattro suite di attività. I risultati rivelano un'inversione nei modelli di vulnerabilità tra i modelli: GPT-4.1 mostra un tasso di vulnerabilità del 96% sugli output degli strumenti ma solo del 4% sulle descrizioni degli strumenti, mentre Gemini 3 Flash mostra rispettivamente il 20% e il 98%. Un'analisi della varianza su 6.830 prove mostra che lo 0% della variazione è dovuto alla superficie di iniezione, suggerendo che l'architettura del modello influenza la vulnerabilità. Lo studio, intitolato "The Surface You Test Is Not the Surface That Breaks", è disponibile su arXiv con ID 2605.30454.
Fatti principali
- Gli agenti LLM potenziati da strumenti sono vulnerabili all'iniezione di prompt tramite le descrizioni degli strumenti.
- Gli aggressori possono scegliere tra la superficie dell'output dello strumento e quella della descrizione dello strumento.
- Il payload era identico a livello di byte su entrambe le superfici.
- Sono stati testati 13 LLM di sei famiglie e quattro suite di attività.
- GPT-4.1 è vulnerabile al 96% sugli output degli strumenti, al 4% sulle descrizioni degli strumenti.
- Gemini 3 Flash è vulnerabile al 20% sugli output degli strumenti, al 98% sulle descrizioni degli strumenti.
- La scomposizione della varianza su 6.830 tentativi mostra lo 0% di variazione dovuta alla superficie.
- L'articolo è pubblicato su arXiv con ID 2605.30454.
Entità
Istituzioni
- arXiv