CarryOnBench: Testare il Recupero dell'Utilità degli LLM dopo Rifiuti di Sicurezza
CarryOnBench è stato lanciato dai ricercatori come il primo benchmark interattivo progettato per valutare se i modelli linguistici di grandi dimensioni (LLM) possono recuperare utilità quando utenti benintenzionati chiariscono le loro intenzioni dopo un rifiuto iniziale per motivi di sicurezza. Lo studio è iniziato con 398 query che sembravano dannose ma avevano motivazioni benigne, portando alla simulazione di 5.970 dialoghi alterando le sequenze di follow-up degli utenti. Quattordici modelli sono stati valutati in base all'utilità allineata all'intento e alla sicurezza, risultando in 1.866 flussi di conversazione unici da 4 a 12 turni, che hanno prodotto 23.880 risposte. Una nuova metrica, Ben-Util, utilizza elementi di checklist atomici per misurare quanto efficacemente ogni risposta soddisfa i requisiti informativi benigni dell'utente. Inizialmente, i modelli soddisfano solo il 10,5–37,6% di queste esigenze, rivelando una disparità tra sicurezza e utilità negli scambi multi-turno.
Fatti principali
- CarryOnBench è il primo benchmark interattivo per il recupero dell'utilità degli LLM dopo rifiuti di sicurezza.
- Parte da 398 query apparentemente dannose con intenzioni sottostanti benigne.
- Sono state simulate 5.970 conversazioni variando le sequenze di follow-up degli utenti.
- 14 modelli sono stati valutati sia per l'utilità allineata all'intento che per la sicurezza.
- Il benchmark include 1.866 diversi flussi di conversazione di 4–12 turni.
- Sono state generate un totale di 23.880 risposte del modello.
- Ben-Util è una metrica basata su checklist per valutare il soddisfacimento dei bisogni informativi benigni.
- Al primo turno, i modelli soddisfano solo il 10,5–37,6% del bisogno informativo benigno dell'utente.
Entità
Istituzioni
- arXiv