Herculean: Benchmarking degli Agenti AI per Workflow Finanziari
Un nuovo benchmark chiamato Herculean valuta gli agenti AI su compiti finanziari complessi. A differenza dei benchmark esistenti che testano abilità statiche come il question answering o la sintesi, Herculean valuta gli agenti attraverso quattro workflow rappresentativi: Trading, Copertura (Hedging), Approfondimenti di Mercato e Revisione (Auditing). Ogni workflow è implementato come un ambiente standardizzato basato su MCP con strumenti, vincoli e criteri di successo specifici. I test sugli agenti all'avanguardia mostrano buone performance in Trading e Approfondimenti di Mercato, ma significative difficoltà in Copertura e Revisione, in particolare nei compiti a lungo termine.
Fatti principali
- Herculean è il primo benchmark specializzato per l'intelligenza finanziaria agentiva.
- Copre quattro workflow: Trading, Copertura, Approfondimenti di Mercato e Revisione.
- Ogni workflow utilizza un ambiente di abilità standardizzato basato su MCP.
- Gli agenti all'avanguardia performano bene in Trading e Approfondimenti di Mercato.
- Gli agenti hanno notevoli difficoltà in Copertura e Revisione.
- Il benchmark consente una valutazione end-to-end coerente di sistemi agentivi eterogenei.
- I benchmark finanziari esistenti valutano solo competenze statiche.
- L'articolo è disponibile su arXiv con ID 2605.14355.
Entità
Istituzioni
- arXiv