IndustryBench: Nuovo benchmark testa i LLM sugli standard di procurement industriale
È stato sviluppato un nuovo benchmark chiamato IndustryBench per valutare i modelli linguistici di grandi dimensioni (LLM) nel contesto del question answering sul procurement industriale in cinese, composto da 2.049 elementi. Questo benchmark si basa sugli standard nazionali cinesi (GB/T) e su registri organizzati di prodotti industriali, suddiviso in dieci settori industriali e sette dimensioni di capacità, con diversi livelli di difficoltà determinati da panel di esperti. Durante la sua costruzione, il 70,3% dei candidati generati dagli LLM è stato scartato in una fase di verifica esterna basata su ricerca, sottolineando i limiti dell'affidarsi esclusivamente agli LLM per il QA industriale. La valutazione separa l'accuratezza grezza, valutata da un modello Qwen3-Max, dalla coerenza critica per la sicurezza. Inoltre, il benchmark presenta traduzioni allineate in inglese, russo e vietnamita. Questa ricerca affronta il problema della correttezza parziale nelle risposte degli LLM, che può oscurare contraddizioni significative spesso trascurate dai benchmark aggregati. Il documento è disponibile su arXiv con il riferimento 2605.10267.
Fatti principali
- IndustryBench è un benchmark di 2.049 elementi per il QA sul procurement industriale in cinese.
- Si basa sugli standard nazionali cinesi (GB/T) e su registri strutturati di prodotti industriali.
- Il benchmark copre sette dimensioni di capacità, dieci categorie industriali e livelli di difficoltà derivati da panel.
- Il processo di costruzione ha scartato il 70,3% dei candidati generati dagli LLM in una fase di verifica esterna basata su ricerca.
- La valutazione separa la correttezza grezza dalla coerenza critica per la sicurezza.
- La correttezza grezza è valutata da un modello Qwen3-Max.
- Il benchmark include traduzioni allineate in inglese, russo e vietnamita.
- Il documento è pubblicato su arXiv con ID 2605.10267.
Entità
Istituzioni
- arXiv