FragBench: Nuovo Benchmark Espone Attacchi LLM Cross-Sessione
I ricercatori hanno presentato FragBench, un benchmark volto a identificare prompt malevoli distribuiti tra diverse sessioni LLM. A differenza degli attuali benchmark di sicurezza che valutano singoli prompt o turni all'interno di una singola conversazione, FragBench rileva segnali di attacco dispersi tra sessioni diverse senza alcun contesto condiviso. Questo benchmark deriva da 24 campagne reali di incidenti informatici e comprende l'intera sequenza di attacco: kill chain multi-frammento, verdetti del giudice di sicurezza per ogni frammento, tracce di esecuzione in sandbox e relative sessioni di copertura benigna. FragBench divide questa sequenza in due componenti: FragBench Attack, un riscrittore avversario che rafforza i frammenti contro un giudice di sicurezza a turno singolo, e FragBench Defense, un rilevatore a livello utente basato su grafi addestrato sulle interazioni risultanti. Il giudice a turno singolo si comporta quasi come un lancio di moneta sul corpus rilasciato, mentre quattro varianti GNN e tre classificatori vengono testati per la difesa. Questa ricerca sottolinea un divario significativo nella valutazione della sicurezza LLM e offre un nuovo strumento per affrontare le minacce cross-sessione.
Fatti principali
- FragBench è un benchmark per attacchi LLM cross-sessione.
- Utilizza 24 campagne reali di incidenti informatici.
- Gli aggressori suddividono obiettivi malevoli in sub-prompt attraverso le sessioni.
- I benchmark esistenti valutano singoli prompt o turni all'interno di una chat.
- FragBench include kill chain multi-frammento e verdetti del giudice di sicurezza.
- Ha due compiti: FragBench Attack e FragBench Defense.
- Il giudice a turno singolo è vicino al caso sul corpus per costruzione.
- Quattro varianti GNN e tre classificatori sono valutati per la difesa.
Entità
Istituzioni
- arXiv