ARTFEED — Contemporary Art Intelligence

TERMS-Bench: Un nuovo benchmark per agenti di negoziazione LLM

ai-technology · 2026-05-16

Un nuovo framework chiamato TERMS-Bench (Testbed for Economic Reasoning in Multi-turn Strategy) è stato sviluppato dai ricercatori per valutare gli agenti di negoziazione basati su grandi modelli linguistici (LLM) utilizzando un approccio di gioco bayesiano, andando oltre metriche di base come il tasso di conclusione dell'affare. La negoziazione, un processo economico essenziale caratterizzato da interazioni multi-turno, preferenze nascoste, dialogo strategico e vincoli vincolanti, pone sfide per la valutazione a causa dell'assenza di un verificatore intrinseco, a differenza della matematica o della programmazione. Le valutazioni attuali dipendono tipicamente dall'interazione tra LLM o dai risultati complessivi, che possono oscurare i fallimenti. TERMS-Bench risolve a questo problema utilizzando l'ambiente come verificatore, dettagliando il tipo nascosto, la politica e la struttura dei payoff della controparte. Questo framework viene applicato a negoziazioni bilaterali di prezzo, dove l'agente non può vedere lo stato privato e la politica del simulatore della controparte, ma il valutatore sì. Ciò consente un'identificazione precisa dei fallimenti degli agenti di negoziazione. La ricerca è disponibile su arXiv con l'identificatore 2605.13909.

Fatti principali

  • TERMS-Bench è un framework di gioco bayesiano per valutare agenti di negoziazione LLM.
  • Va oltre il tasso di conclusione dell'affare per diagnosticare fallimenti specifici.
  • La negoziazione coinvolge interazione multi-turno, preferenze nascoste, comunicazione strategica e vincoli vincolanti.
  • Le valutazioni esistenti si basano sull'interazione LLM vs LLM o sui risultati aggregati.
  • TERMS-Bench rende l'ambiente il verificatore specificando il tipo latente, la politica e la struttura dei payoff della controparte.
  • È istanziato nella negoziazione bilaterale di prezzo.
  • Lo stato privato e la politica del simulatore della controparte sono nascosti all'agente ma osservabili dal valutatore.
  • L'articolo è disponibile su arXiv con ID 2605.13909.

Entità

Istituzioni

  • arXiv

Fonti