ARTFEED — Contemporary Art Intelligence

LLM testati sulla manutenzione industriale tramite il benchmark DiagnosticIQ

ai-technology · 2026-05-12

Un nuovo benchmark chiamato DiagnosticIQ è stato sviluppato da ricercatori, composto da 6.690 domande a scelta multipla validate da esperti, basate su 118 coppie regola-azione in 16 categorie di asset. Questa iniziativa mira a determinare se i grandi modelli linguistici possono convertire regole di manutenzione simboliche in azioni pratiche, affrontando la sfida di richiedere competenze specifiche per gli asset nella manutenzione industriale. Il benchmark presenta un pipeline simbolico-a-MCQA che converte le regole in Forma Normale Disgiuntiva con campionamento di distrattori basato su embedding, insieme a cinque varianti che esplorano diverse modalità di fallimento (Pro, Pert, Verbose, Aug, Rationale). Sono state condotte valutazioni su 29 LLM e 4 baseline di embedding, con una valutazione umana che ha coinvolto 9 professionisti (punteggio medio 45,0%), indicando che DiagnosticIQ richiede conoscenze specializzate oltre al semplice contesto operativo. La fonte è arXiv:2605.08614.

Fatti principali

  • Il benchmark DiagnosticIQ contiene 6.690 domande a scelta multipla validate da esperti
  • Derivato da 118 coppie regola-azione in 16 tipi di asset
  • Valuta gli LLM per tradurre regole simboliche in azioni di manutenzione
  • Include cinque tipi di varianti: Pro, Pert, Verbose, Aug, Rationale
  • Testati 29 LLM e 4 baseline di embedding
  • La valutazione umana con 9 professionisti ha raggiunto una media del 45,0%
  • Utilizza un pipeline simbolico-a-MCQA con Forma Normale Disgiuntiva
  • Pubblicato su arXiv con ID 2605.08614

Entità

Istituzioni

  • arXiv

Fonti