ARTFEED — Contemporary Art Intelligence

ThermoQA Benchmark Testa il Ragionamento Termodinamico degli LLM

ai-technology · 2026-04-24

È stato sviluppato un nuovo set di test chiamato ThermoQA per valutare quanto bene i grandi modelli linguistici comprendano la termodinamica ingegneristica. Include 293 domande suddivise in tre parti: 110 per la ricerca di proprietà, 101 per l'analisi dei componenti e 82 per l'analisi del ciclo completo. Le risposte si basano sui dati di CoolProp 7.2.0, che coprono acqua, refrigerante R-134a e aria a cp variabile. Sei importanti LLM sono stati testati con tre tentativi ciascuno, e i punteggi migliori sono stati ottenuti da Claude Opus 4.6 con il 94,1%, seguito da GPT-5.4 con il 93,1% e Gemini 3.1 Pro con il 92,5%. Il calo delle prestazioni tra i livelli mostra che la semplice memorizzazione dei fatti non è sufficiente per un vero ragionamento termodinamico. Il dataset e il codice sono disponibili su Hugging Face.

Fatti principali

  • Il benchmark ThermoQA contiene 293 problemi aperti di termodinamica
  • Tre livelli: ricerca di proprietà (110 Q), analisi dei componenti (101 Q), analisi del ciclo completo (82 Q)
  • Verità di base calcolata da CoolProp 7.2.0
  • Sei LLM all'avanguardia valutati in tre esecuzioni ciascuno
  • Claude Opus 4.6 guida con il 94,1% di precisione
  • GPT-5.4 ottiene il 93,1%, Gemini 3.1 Pro il 92,5%
  • Il degrado tra i livelli varia da 2,8 pp (Opus) a 32,5 pp (MiniMax)
  • Acqua supercritica, R-134a e analisi di turbine a gas a ciclo combinato sono discriminanti chiave
  • Sigma multi-esecuzione varia da +/-0,1% a +/-2,5%
  • Dataset e codice sono open-source

Entità

Istituzioni

  • arXiv
  • Hugging Face
  • CoolProp

Fonti