ThermoQA Benchmark Testa il Ragionamento Termodinamico degli LLM

ai-technology · 2026-04-24

È stato sviluppato un nuovo set di test chiamato ThermoQA per valutare quanto bene i grandi modelli linguistici comprendano la termodinamica ingegneristica. Include 293 domande suddivise in tre parti: 110 per la ricerca di proprietà, 101 per l'analisi dei componenti e 82 per l'analisi del ciclo completo. Le risposte si basano sui dati di CoolProp 7.2.0, che coprono acqua, refrigerante R-134a e aria a cp variabile. Sei importanti LLM sono stati testati con tre tentativi ciascuno, e i punteggi migliori sono stati ottenuti da Claude Opus 4.6 con il 94,1%, seguito da GPT-5.4 con il 93,1% e Gemini 3.1 Pro con il 92,5%. Il calo delle prestazioni tra i livelli mostra che la semplice memorizzazione dei fatti non è sufficiente per un vero ragionamento termodinamico. Il dataset e il codice sono disponibili su Hugging Face.

Fatti principali

Il benchmark ThermoQA contiene 293 problemi aperti di termodinamica
Tre livelli: ricerca di proprietà (110 Q), analisi dei componenti (101 Q), analisi del ciclo completo (82 Q)
Verità di base calcolata da CoolProp 7.2.0
Sei LLM all'avanguardia valutati in tre esecuzioni ciascuno
Claude Opus 4.6 guida con il 94,1% di precisione
GPT-5.4 ottiene il 93,1%, Gemini 3.1 Pro il 92,5%
Il degrado tra i livelli varia da 2,8 pp (Opus) a 32,5 pp (MiniMax)
Acqua supercritica, R-134a e analisi di turbine a gas a ciclo combinato sono discriminanti chiave
Sigma multi-esecuzione varia da +/-0,1% a +/-2,5%
Dataset e codice sono open-source

ThermoQA Benchmark Testa il Ragionamento Termodinamico degli LLM

Fatti principali

Entità

Istituzioni

Fonti