ARTFEED — Contemporary Art Intelligence

Livello di rilevamento frodi per attacchi avversari a agenti LLM

ai-technology · 2026-05-06

Un nuovo articolo di ricerca su arXiv propone un livello di rilevamento frodi a bassa latenza per identificare schemi di interazione avversari in agenti basati su LLM. Il sistema modella il rischio sull'intera traiettoria di interazione anziché valutare singoli prompt, utilizzando caratteristiche strutturate in fase di esecuzione provenienti da caratteristiche del prompt, dinamiche di sessione, utilizzo di strumenti e contesto di esecuzione. Questo affronta vulnerabilità come l'iniezione diretta di prompt, attacchi indiretti ai contenuti e strategie di escalation multi-turno, che i filtri a livello di prompt e le barriere basate su regole esistenti non riescono a intercettare. L'approccio è progettato come meccanismo di difesa complementare per agenti autonomi.

Fatti principali

  • ID articolo arXiv: 2605.01143
  • Propone un livello di rilevamento frodi a bassa latenza per agenti basati su LLM
  • Rileva schemi avversari attraverso sequenze di interazione
  • Utilizza caratteristiche strutturate in fase di esecuzione da caratteristiche del prompt, dinamiche di sessione, utilizzo di strumenti, contesto di esecuzione
  • Affronta iniezione diretta di prompt, attacchi indiretti ai contenuti, escalation multi-turno
  • Difese esistenti: filtraggio a livello di prompt e barriere basate su regole sono insufficienti
  • Il modello è complementare alle difese esistenti
  • Si concentra sul rischio sulle traiettorie di interazione, non su singoli prompt

Entità

Istituzioni

  • arXiv

Fonti