NeuroState-Bench: Benchmarking dell'Integrità degli Impegni negli Agenti LLM

ai-technology · 2026-05-06

NeuroState-Bench è un benchmark calibrato umanamente progettato per valutare l'integrità degli impegni nei profili degli agenti LLM. Utilizza sonde di interrogazione laterale definite dal benchmark invece di attivazioni nascoste inferite per valutare se un agente mantiene gli impegni attraverso compiti multi-turno. Il benchmark include 144 compiti deterministici e 306 sonde di interrogazione laterale che coprono otto famiglie di fallimenti cognitivamente motivate, con varianti pulite e distrattori su tre fasce di difficoltà. La valutazione principale coinvolge 32 profili: 16 profili locali e 16 profili di grandi modelli ospitati. La calibrazione umana è stata eseguita su 104 unità di compito campionate, con 216 annotazioni grezze e 108 righe di compito aggiudicate, raggiungendo un kappa ponderato = 0,977 e ICC(2,1) = 0,977. Il benchmark rivela che il successo del compito e l'integrità degli impegni sono dimensioni distinte della performance dell'agente.

Fatti principali

NeuroState-Bench valuta l'integrità degli impegni nei profili degli agenti LLM.
Utilizza sonde di interrogazione laterale definite dal benchmark anziché attivazioni nascoste.
Contiene 144 compiti deterministici e 306 sonde di interrogazione laterale.
Copre otto famiglie di fallimenti cognitivamente motivate.
Include varianti pulite e distrattori su tre fasce di difficoltà.
La valutazione principale coinvolge 32 profili: 16 locali e 16 di grandi modelli ospitati.
La calibrazione umana su 104 unità di compito ha raggiunto un kappa ponderato = 0,977.
Il successo del compito e l'integrità degli impegni sono dimensioni distinte della performance.

Entità

—

Fonti

arXiv cs.AI — 2026-05-05