ARTFEED — Contemporary Art Intelligence

FragBench: Nuovo Benchmark Espone Attacchi LLM Cross-Sessione

ai-technology · 2026-05-13

I ricercatori hanno presentato FragBench, un benchmark volto a identificare prompt malevoli distribuiti tra diverse sessioni LLM. A differenza degli attuali benchmark di sicurezza che valutano singoli prompt o turni all'interno di una singola conversazione, FragBench rileva segnali di attacco dispersi tra sessioni diverse senza alcun contesto condiviso. Questo benchmark deriva da 24 campagne reali di incidenti informatici e comprende l'intera sequenza di attacco: kill chain multi-frammento, verdetti del giudice di sicurezza per ogni frammento, tracce di esecuzione in sandbox e relative sessioni di copertura benigna. FragBench divide questa sequenza in due componenti: FragBench Attack, un riscrittore avversario che rafforza i frammenti contro un giudice di sicurezza a turno singolo, e FragBench Defense, un rilevatore a livello utente basato su grafi addestrato sulle interazioni risultanti. Il giudice a turno singolo si comporta quasi come un lancio di moneta sul corpus rilasciato, mentre quattro varianti GNN e tre classificatori vengono testati per la difesa. Questa ricerca sottolinea un divario significativo nella valutazione della sicurezza LLM e offre un nuovo strumento per affrontare le minacce cross-sessione.

Fatti principali

  • FragBench è un benchmark per attacchi LLM cross-sessione.
  • Utilizza 24 campagne reali di incidenti informatici.
  • Gli aggressori suddividono obiettivi malevoli in sub-prompt attraverso le sessioni.
  • I benchmark esistenti valutano singoli prompt o turni all'interno di una chat.
  • FragBench include kill chain multi-frammento e verdetti del giudice di sicurezza.
  • Ha due compiti: FragBench Attack e FragBench Defense.
  • Il giudice a turno singolo è vicino al caso sul corpus per costruzione.
  • Quattro varianti GNN e tre classificatori sono valutati per la difesa.

Entità

Istituzioni

  • arXiv

Fonti