ARTFEED — Contemporary Art Intelligence

IndustryBench: Nuovo benchmark testa i LLM sugli standard di procurement industriale

ai-technology · 2026-05-12

È stato sviluppato un nuovo benchmark chiamato IndustryBench per valutare i modelli linguistici di grandi dimensioni (LLM) nel contesto del question answering sul procurement industriale in cinese, composto da 2.049 elementi. Questo benchmark si basa sugli standard nazionali cinesi (GB/T) e su registri organizzati di prodotti industriali, suddiviso in dieci settori industriali e sette dimensioni di capacità, con diversi livelli di difficoltà determinati da panel di esperti. Durante la sua costruzione, il 70,3% dei candidati generati dagli LLM è stato scartato in una fase di verifica esterna basata su ricerca, sottolineando i limiti dell'affidarsi esclusivamente agli LLM per il QA industriale. La valutazione separa l'accuratezza grezza, valutata da un modello Qwen3-Max, dalla coerenza critica per la sicurezza. Inoltre, il benchmark presenta traduzioni allineate in inglese, russo e vietnamita. Questa ricerca affronta il problema della correttezza parziale nelle risposte degli LLM, che può oscurare contraddizioni significative spesso trascurate dai benchmark aggregati. Il documento è disponibile su arXiv con il riferimento 2605.10267.

Fatti principali

  • IndustryBench è un benchmark di 2.049 elementi per il QA sul procurement industriale in cinese.
  • Si basa sugli standard nazionali cinesi (GB/T) e su registri strutturati di prodotti industriali.
  • Il benchmark copre sette dimensioni di capacità, dieci categorie industriali e livelli di difficoltà derivati da panel.
  • Il processo di costruzione ha scartato il 70,3% dei candidati generati dagli LLM in una fase di verifica esterna basata su ricerca.
  • La valutazione separa la correttezza grezza dalla coerenza critica per la sicurezza.
  • La correttezza grezza è valutata da un modello Qwen3-Max.
  • Il benchmark include traduzioni allineate in inglese, russo e vietnamita.
  • Il documento è pubblicato su arXiv con ID 2605.10267.

Entità

Istituzioni

  • arXiv

Fonti