Attaccante adattivo supera la maggior parte delle difese contro il prompt injection nei LLM

ai-technology · 2026-04-29

Un recente studio pubblicato su arXiv indica che la maggior parte delle strategie progettate per contrastare il prompt injection nei grandi modelli linguistici sono in gran parte inefficaci. I ricercatori hanno sviluppato un attaccante adattivo che ha progredito attraverso centinaia di round, valutando nove configurazioni difensive contro oltre 20.000 attacchi. Tutte le difese che dipendevano dall'autoprotezione del modello alla fine hanno fallito. L'unica strategia efficace è stata il filtraggio dell'output, che utilizza regole hardcoded in codice applicativo distinto per vagliare le risposte prima della consegna all'utente, senza alcuna fuga di dati in 15.000 attacchi. I risultati suggeriscono che le misure di sicurezza dovrebbero essere implementate nel codice applicativo piuttosto che fare affidamento sul modello. Fino a quando le difese non saranno validate da strumenti come Swept AI, i sistemi di IA che gestiscono compiti sensibili dovrebbero essere accessibili solo a personale interno fidato.

Fatti principali

L'attaccante adattivo ha evoluto le strategie in centinaia di round
Nove configurazioni difensive testate in oltre 20.000 attacchi
Tutte le difese che si basavano sull'autoprotezione del modello alla fine sono state violate
Il filtraggio dell'output ha ottenuto zero fughe di dati in 15.000 attacchi
I confini di sicurezza devono essere imposti nel codice applicativo
Swept AI menzionato come strumento di verifica
Raccomandazione di limitare i sistemi di IA al personale interno fidato

Attaccante adattivo supera la maggior parte delle difese contro il prompt injection nei LLM

Fatti principali

Entità

Istituzioni

Fonti