FactoryBench: Nuovo Benchmark Rivela le Difficoltà dei LLM nella Comprensione di Macchinari Industriali
Un nuovo benchmark chiamato FactoryBench è stato lanciato da ricercatori per valutare le capacità dei modelli di serie temporali e dei grandi modelli linguistici (LLM) nell'interpretazione della telemetria robotica industriale. Questo benchmark classifica le coppie domanda-risposta in quattro livelli causali—stato, intervento, controfattuale e decisione—seguendo la gerarchia causale di Pearl. Include cinque formati di risposta, dove quattro tipi strutturati ricevono punteggi deterministici, mentre le risposte libere vengono giudicate tramite un sistema di voto LLM-as-judge. Il team ha anche stabilito un framework scalabile per la generazione di Q&A utilizzando modelli di domande strutturate e ha sviluppato FactoryWave, un dataset completo multivariato multi-task di sensori proveniente da un cobot UR3 e un braccio industriale KUKA KR10. FactoryBench presenta oltre 70.000 elementi Q&A derivati da circa 15.000 episodi normalizzati da FactoryWave, AURSAD e voraus-AD. Una valutazione zero-shot di sei LLM leader ha rivelato che nessuno ha superato il 50% di accuratezza sui livelli strutturati o il 18% sul processo decisionale, indicando una notevole carenza nella comprensione delle macchine per usi industriali.
Fatti principali
- FactoryBench valuta modelli di serie temporali e LLM sulla comprensione della telemetria robotica industriale.
- Le coppie Q&A sono organizzate lungo quattro livelli causali: stato, intervento, controfattuale, decisione.
- I formati di risposta includono quattro tipi strutturati e risposte libere valutate da LLM-as-judge.
- Il dataset FactoryWave è stato raccolto da cobot UR3 e braccio industriale KUKA KR10.
- Il benchmark include oltre 70.000 elementi Q&A da 15.000 episodi normalizzati.
- Fonti dei dati: FactoryWave, AURSAD e voraus-AD.
- La valutazione zero-shot di sei LLM all'avanguardia ha mostrato che nessun modello ha superato il 50% sui livelli strutturati.
- Nessun modello ha superato il 18% nei compiti decisionali.
- Pubblicato su arXiv con ID 2605.07675.
Entità
Istituzioni
- arXiv