Valutazione degli LLM nel Ragionamento sui Costi Chimici con il Nuovo Benchmark ChemCost
ChemCost, un nuovo benchmark, valuta i modelli linguistici di grandi dimensioni (LLM) nella stima dei costi per l'approvvigionamento chimico. Include 1.427 reazioni valutabili basate su un'istantanea dei prezzi fissa che comprende 2.261 sostanze chimiche e 230.775 preventivi di fornitori. Il benchmark consente un punteggio scalare e permette un'analisi a livello di fase degli errori di grounding, recupero, approvvigionamento e aritmetici. Questa iniziativa colma una lacuna nella valutazione approfondita dell'applicazione degli LLM in contesti scientifici, andando oltre le dimostrazioni curate o le valutazioni LLM-as-judge per fornire una verità di base precisa e imparziale. Il compito richiede agli agenti di identificare entità chimiche, ottenere preventivi dai fornitori, scegliere quantità acquistabili valide, standardizzare gli importi e calcolare i costi in base a una descrizione della reazione.
Fatti principali
- Il benchmark ChemCost include 1.427 reazioni valutabili
- L'istantanea dei prezzi copre 2.261 sostanze chimiche e 230.775 preventivi di fornitori
- Il compito coinvolge fasi di grounding, recupero, approvvigionamento e aritmetiche
- La valutazione utilizza una verità di base esatta anziché LLM-as-judge
- Pubblicato come arXiv:2605.07251
Entità
Istituzioni
- arXiv