ARTFEED — Contemporary Art Intelligence

Attaccante adattivo supera la maggior parte delle difese contro il prompt injection nei LLM

ai-technology · 2026-04-29

Un recente studio pubblicato su arXiv indica che la maggior parte delle strategie progettate per contrastare il prompt injection nei grandi modelli linguistici sono in gran parte inefficaci. I ricercatori hanno sviluppato un attaccante adattivo che ha progredito attraverso centinaia di round, valutando nove configurazioni difensive contro oltre 20.000 attacchi. Tutte le difese che dipendevano dall'autoprotezione del modello alla fine hanno fallito. L'unica strategia efficace è stata il filtraggio dell'output, che utilizza regole hardcoded in codice applicativo distinto per vagliare le risposte prima della consegna all'utente, senza alcuna fuga di dati in 15.000 attacchi. I risultati suggeriscono che le misure di sicurezza dovrebbero essere implementate nel codice applicativo piuttosto che fare affidamento sul modello. Fino a quando le difese non saranno validate da strumenti come Swept AI, i sistemi di IA che gestiscono compiti sensibili dovrebbero essere accessibili solo a personale interno fidato.

Fatti principali

  • L'attaccante adattivo ha evoluto le strategie in centinaia di round
  • Nove configurazioni difensive testate in oltre 20.000 attacchi
  • Tutte le difese che si basavano sull'autoprotezione del modello alla fine sono state violate
  • Il filtraggio dell'output ha ottenuto zero fughe di dati in 15.000 attacchi
  • I confini di sicurezza devono essere imposti nel codice applicativo
  • Swept AI menzionato come strumento di verifica
  • Raccomandazione di limitare i sistemi di IA al personale interno fidato

Entità

Istituzioni

  • arXiv
  • Swept AI

Fonti