ARTFEED — Contemporary Art Intelligence

CAREBench: Nuovo benchmark valuta la comprensione delle emozioni dei LLM tramite ragionamento valutativo

ai-technology · 2026-05-20

I ricercatori hanno presentato CAREBench, un benchmark pionieristico volto a valutare la comprensione emotiva dei grandi modelli linguistici (LLM) attraverso la lente del ragionamento valutativo cognitivo. Basato sulla teoria dell'appraisal, CAREBench offre annotazioni complete di catene inferenziali sia dal punto di vista in prima che in terza persona su storie del mondo reale, affrontando il ragionamento valutativo, le valutazioni di appraisal e l'etichettatura multi-etichetta delle emozioni. Lo studio introduce un quadro per la valutazione a livello di processo ed esegue esperimenti sistematici coinvolgendo sei LLM incentrati su quattro domande di ricerca. I risultati indicano che, sebbene i modelli più avanzati possano eguagliare o superare le prestazioni umane in alcune aree, hanno difficoltà con il ragionamento valutativo e il riconoscimento delle emozioni positive. Esistono notevoli discrepanze nelle prestazioni tra diversi passaggi della catena e sensibilità agli interventi di appraisal, sottolineando l'integrazione incompleta del pieno ragionamento valutativo nei modelli attuali.

Fatti principali

  • CAREBench è il primo benchmark con annotazioni complete di catene inferenziali per la comprensione delle emozioni.
  • Il benchmark è basato sulla teoria dell'appraisal.
  • Le annotazioni coprono prospettive in prima e terza persona su narrazioni del mondo reale.
  • Il quadro di valutazione è a livello di processo.
  • Gli esperimenti sono stati condotti su sei LLM.
  • I modelli più forti eguagliano o superano gli osservatori umani in alcuni compiti.
  • I modelli sono carenti nel ragionamento valutativo e nel riconoscimento delle emozioni positive.
  • Esistono dissociazioni nelle prestazioni tra i passaggi della catena e sensibilità agli interventi di appraisal.

Entità

Istituzioni

  • arXiv

Fonti