FinChain: Benchmark Verificabile del Ragionamento a Catena per il Settore Finanziario
FinChain è stato lanciato dai ricercatori come il primo benchmark su misura per la valutazione verificabile del Chain-of-Thought nel settore finanziario. Coprendo 58 argomenti in 12 aree finanziarie, utilizza template simbolici parametrizzati insieme a codice Python eseguibile per facilitare la creazione di dati scalabili e privi di contaminazione. La metrica CHAINEVAL introdotta valuta sia l'accuratezza delle risposte finali che la coerenza del ragionamento a ogni passaggio. Una valutazione di 26 LLM di alto livello indica che anche i modelli più avanzati mostrano carenze significative nel ragionamento simbolico multi-step.
Fatti principali
- FinChain è il primo benchmark per la valutazione verificabile del Chain-of-Thought in finanza.
- Copre 58 argomenti in 12 domini finanziari.
- Utilizza template simbolici parametrizzati con codice Python eseguibile.
- Consente un ragionamento completamente verificabile dalla macchina e una generazione di dati senza contaminazione.
- CHAINEVAL è una misura di allineamento dinamico per la risposta finale e il ragionamento a livello di passaggio.
- Sono stati valutati 26 LLM leader.
- I modelli LLM all'avanguardia mostrano chiari limiti nel ragionamento simbolico multi-step.
- Dataset esistenti come FinQA e ConvFinQA trascurano i passaggi di ragionamento intermedi.
Entità
—