CarryOnBench: Testare il Recupero dell'Utilità degli LLM dopo Rifiuti di Sicurezza

ai-technology · 2026-05-01

CarryOnBench è stato lanciato dai ricercatori come il primo benchmark interattivo progettato per valutare se i modelli linguistici di grandi dimensioni (LLM) possono recuperare utilità quando utenti benintenzionati chiariscono le loro intenzioni dopo un rifiuto iniziale per motivi di sicurezza. Lo studio è iniziato con 398 query che sembravano dannose ma avevano motivazioni benigne, portando alla simulazione di 5.970 dialoghi alterando le sequenze di follow-up degli utenti. Quattordici modelli sono stati valutati in base all'utilità allineata all'intento e alla sicurezza, risultando in 1.866 flussi di conversazione unici da 4 a 12 turni, che hanno prodotto 23.880 risposte. Una nuova metrica, Ben-Util, utilizza elementi di checklist atomici per misurare quanto efficacemente ogni risposta soddisfa i requisiti informativi benigni dell'utente. Inizialmente, i modelli soddisfano solo il 10,5–37,6% di queste esigenze, rivelando una disparità tra sicurezza e utilità negli scambi multi-turno.

Fatti principali

CarryOnBench è il primo benchmark interattivo per il recupero dell'utilità degli LLM dopo rifiuti di sicurezza.
Parte da 398 query apparentemente dannose con intenzioni sottostanti benigne.
Sono state simulate 5.970 conversazioni variando le sequenze di follow-up degli utenti.
14 modelli sono stati valutati sia per l'utilità allineata all'intento che per la sicurezza.
Il benchmark include 1.866 diversi flussi di conversazione di 4–12 turni.
Sono state generate un totale di 23.880 risposte del modello.
Ben-Util è una metrica basata su checklist per valutare il soddisfacimento dei bisogni informativi benigni.
Al primo turno, i modelli soddisfano solo il 10,5–37,6% del bisogno informativo benigno dell'utente.

CarryOnBench: Testare il Recupero dell'Utilità degli LLM dopo Rifiuti di Sicurezza

Fatti principali

Entità

Istituzioni

Fonti