ARTFEED — Contemporary Art Intelligence

SupChain-Bench: Benchmarking dei LLM per la Gestione della Catena di Fornitura

other · 2026-05-14

SupChain-Bench è un benchmark innovativo volto a valutare i modelli linguistici di grandi dimensioni (LLM) in scenari pratici di gestione della catena di fornitura. Valuta la competenza di dominio e la capacità di orchestrare strumenti per periodi prolungati, basandosi su procedure operative standard (SOP). La ricerca indica notevoli carenze nell'affidabilità esecutiva tra i modelli esistenti. Inoltre, i creatori introducono SupChain-ReAct, un framework che opera senza SOP, generando autonomamente procedure eseguibili per l'utilizzo degli strumenti e dimostrando prestazioni superiori e costanti nel tool-calling. Questa iniziativa stabilisce un benchmark fondamentale per esaminare l'orchestrazione affidabile a lungo termine nei processi della catena di fornitura.

Fatti principali

  • SupChain-Bench è un benchmark unificato del mondo reale per la gestione della catena di fornitura.
  • Valuta gli LLM sulla conoscenza di dominio e l'orchestrazione basata su strumenti a lungo termine.
  • Gli esperimenti mostrano notevoli lacune nell'affidabilità esecutiva tra i modelli.
  • SupChain-ReAct è un framework senza SOP che sintetizza procedure eseguibili.
  • SupChain-ReAct ottiene le prestazioni più forti e costanti nel tool-calling.
  • Il benchmark si basa su procedure operative standard (SOP).
  • Il lavoro mira a studiare l'orchestrazione affidabile a lungo termine.
  • L'articolo è disponibile su arXiv con ID 2602.07342.

Entità

Istituzioni

  • arXiv

Fonti