ARTFEED — Contemporary Art Intelligence

CarryOnBench: Testare il Recupero dell'Utilità degli LLM dopo Rifiuti di Sicurezza

ai-technology · 2026-05-01

CarryOnBench è stato lanciato dai ricercatori come il primo benchmark interattivo progettato per valutare se i modelli linguistici di grandi dimensioni (LLM) possono recuperare utilità quando utenti benintenzionati chiariscono le loro intenzioni dopo un rifiuto iniziale per motivi di sicurezza. Lo studio è iniziato con 398 query che sembravano dannose ma avevano motivazioni benigne, portando alla simulazione di 5.970 dialoghi alterando le sequenze di follow-up degli utenti. Quattordici modelli sono stati valutati in base all'utilità allineata all'intento e alla sicurezza, risultando in 1.866 flussi di conversazione unici da 4 a 12 turni, che hanno prodotto 23.880 risposte. Una nuova metrica, Ben-Util, utilizza elementi di checklist atomici per misurare quanto efficacemente ogni risposta soddisfa i requisiti informativi benigni dell'utente. Inizialmente, i modelli soddisfano solo il 10,5–37,6% di queste esigenze, rivelando una disparità tra sicurezza e utilità negli scambi multi-turno.

Fatti principali

  • CarryOnBench è il primo benchmark interattivo per il recupero dell'utilità degli LLM dopo rifiuti di sicurezza.
  • Parte da 398 query apparentemente dannose con intenzioni sottostanti benigne.
  • Sono state simulate 5.970 conversazioni variando le sequenze di follow-up degli utenti.
  • 14 modelli sono stati valutati sia per l'utilità allineata all'intento che per la sicurezza.
  • Il benchmark include 1.866 diversi flussi di conversazione di 4–12 turni.
  • Sono state generate un totale di 23.880 risposte del modello.
  • Ben-Util è una metrica basata su checklist per valutare il soddisfacimento dei bisogni informativi benigni.
  • Al primo turno, i modelli soddisfano solo il 10,5–37,6% del bisogno informativo benigno dell'utente.

Entità

Istituzioni

  • arXiv

Fonti