ARTFEED — Contemporary Art Intelligence

Valutazione degli LLM nel Ragionamento sui Costi Chimici con il Nuovo Benchmark ChemCost

ai-technology · 2026-05-11

ChemCost, un nuovo benchmark, valuta i modelli linguistici di grandi dimensioni (LLM) nella stima dei costi per l'approvvigionamento chimico. Include 1.427 reazioni valutabili basate su un'istantanea dei prezzi fissa che comprende 2.261 sostanze chimiche e 230.775 preventivi di fornitori. Il benchmark consente un punteggio scalare e permette un'analisi a livello di fase degli errori di grounding, recupero, approvvigionamento e aritmetici. Questa iniziativa colma una lacuna nella valutazione approfondita dell'applicazione degli LLM in contesti scientifici, andando oltre le dimostrazioni curate o le valutazioni LLM-as-judge per fornire una verità di base precisa e imparziale. Il compito richiede agli agenti di identificare entità chimiche, ottenere preventivi dai fornitori, scegliere quantità acquistabili valide, standardizzare gli importi e calcolare i costi in base a una descrizione della reazione.

Fatti principali

  • Il benchmark ChemCost include 1.427 reazioni valutabili
  • L'istantanea dei prezzi copre 2.261 sostanze chimiche e 230.775 preventivi di fornitori
  • Il compito coinvolge fasi di grounding, recupero, approvvigionamento e aritmetiche
  • La valutazione utilizza una verità di base esatta anziché LLM-as-judge
  • Pubblicato come arXiv:2605.07251

Entità

Istituzioni

  • arXiv

Fonti