BlueFin: un benchmark per testare gli agenti LLM sui fogli di calcolo finanziari
Un nuovo benchmark chiamato BlueFin è stato lanciato da ricercatori per valutare gli agenti dei modelli linguistici di grandi dimensioni (LLM) su compiti relativi ai fogli di calcolo nel settore finanziario. Questo benchmark include 131 compiti complessi del mondo reale e presenta 3.225 criteri di rubriche dettagliati. È importante notare che un gruppo di annotatori umani esperti ha convalidato i criteri delle rubriche e le valutazioni dei giudici LM, garantendo valutazioni di alta qualità. Questa iniziativa mira a colmare il divario nelle prestazioni degli LLM per i compiti legati ai fogli di calcolo, specialmente considerando che il numero di utenti paganti di fogli di calcolo in tutto il mondo supera di gran lunga quello degli sviluppatori professionisti.
Fatti principali
- BlueFin è un benchmark per agenti LLM su compiti di fogli di calcolo finanziari.
- Include 131 compiti e 3.225 criteri di rubriche.
- Le valutazioni sono convalidate da annotatori umani esperti.
- Il benchmark si concentra su compiti di sintesi, manipolazione e comprensione.
- Gli utenti globali di fogli di calcolo superano di un ordine di grandezza gli sviluppatori professionisti.
- Poche risorse sono state dedicate alle capacità degli LLM nel dominio dei fogli di calcolo.
- Il benchmark mira a rispecchiare compiti lavorativi reali nella finanza professionale.
- L'articolo è disponibile su arXiv con ID 2605.30907.
Entità
Istituzioni
- arXiv