SupChain-Bench: Benchmarking dei LLM per la Gestione della Catena di Fornitura
SupChain-Bench è un benchmark innovativo volto a valutare i modelli linguistici di grandi dimensioni (LLM) in scenari pratici di gestione della catena di fornitura. Valuta la competenza di dominio e la capacità di orchestrare strumenti per periodi prolungati, basandosi su procedure operative standard (SOP). La ricerca indica notevoli carenze nell'affidabilità esecutiva tra i modelli esistenti. Inoltre, i creatori introducono SupChain-ReAct, un framework che opera senza SOP, generando autonomamente procedure eseguibili per l'utilizzo degli strumenti e dimostrando prestazioni superiori e costanti nel tool-calling. Questa iniziativa stabilisce un benchmark fondamentale per esaminare l'orchestrazione affidabile a lungo termine nei processi della catena di fornitura.
Fatti principali
- SupChain-Bench è un benchmark unificato del mondo reale per la gestione della catena di fornitura.
- Valuta gli LLM sulla conoscenza di dominio e l'orchestrazione basata su strumenti a lungo termine.
- Gli esperimenti mostrano notevoli lacune nell'affidabilità esecutiva tra i modelli.
- SupChain-ReAct è un framework senza SOP che sintetizza procedure eseguibili.
- SupChain-ReAct ottiene le prestazioni più forti e costanti nel tool-calling.
- Il benchmark si basa su procedure operative standard (SOP).
- Il lavoro mira a studiare l'orchestrazione affidabile a lungo termine.
- L'articolo è disponibile su arXiv con ID 2602.07342.
Entità
Istituzioni
- arXiv