LLM testati sulla manutenzione industriale tramite il benchmark DiagnosticIQ

ai-technology · 2026-05-12

Un nuovo benchmark chiamato DiagnosticIQ è stato sviluppato da ricercatori, composto da 6.690 domande a scelta multipla validate da esperti, basate su 118 coppie regola-azione in 16 categorie di asset. Questa iniziativa mira a determinare se i grandi modelli linguistici possono convertire regole di manutenzione simboliche in azioni pratiche, affrontando la sfida di richiedere competenze specifiche per gli asset nella manutenzione industriale. Il benchmark presenta un pipeline simbolico-a-MCQA che converte le regole in Forma Normale Disgiuntiva con campionamento di distrattori basato su embedding, insieme a cinque varianti che esplorano diverse modalità di fallimento (Pro, Pert, Verbose, Aug, Rationale). Sono state condotte valutazioni su 29 LLM e 4 baseline di embedding, con una valutazione umana che ha coinvolto 9 professionisti (punteggio medio 45,0%), indicando che DiagnosticIQ richiede conoscenze specializzate oltre al semplice contesto operativo. La fonte è arXiv:2605.08614.

Fatti principali

Il benchmark DiagnosticIQ contiene 6.690 domande a scelta multipla validate da esperti
Derivato da 118 coppie regola-azione in 16 tipi di asset
Valuta gli LLM per tradurre regole simboliche in azioni di manutenzione
Include cinque tipi di varianti: Pro, Pert, Verbose, Aug, Rationale
Testati 29 LLM e 4 baseline di embedding
La valutazione umana con 9 professionisti ha raggiunto una media del 45,0%
Utilizza un pipeline simbolico-a-MCQA con Forma Normale Disgiuntiva
Pubblicato su arXiv con ID 2605.08614

LLM testati sulla manutenzione industriale tramite il benchmark DiagnosticIQ

Fatti principali

Entità

Istituzioni

Fonti