Agent-ValueBench: primo benchmark per i valori degli agenti autonomi
Agent-ValueBench è stato lanciato da ricercatori come il primo benchmark volto a valutare i valori degli agenti autonomi. I precedenti benchmark sui valori si sono concentrati principalmente sui grandi modelli linguistici (LLM); tuttavia, questo studio rivela che i valori degli agenti differiscono da quelli dei loro LLM fondamentali a causa della loro natura agentiva. Questo benchmark affronta sfide relative a dataset, valutazioni e sistemi che non sono presenti nei framework basati solo su testo. Comprende 394 ambienti eseguibili in 16 domini e include 4.335 compiti di conflitto di valori che coprono 28 sistemi di valori e 332 dimensioni. Ogni compito è meticolosamente co-sintetizzato attraverso una pipeline end-to-end specializzata e curato individualmente da annotatori esperti. I risultati sono disponibili su arXiv con l'identificatore 2605.10365.
Fatti principali
- Agent-ValueBench è il primo benchmark dedicato ai valori degli agenti.
- Presenta 394 ambienti eseguibili in 16 domini.
- Offre 4.335 compiti di conflitto di valori che coprono 28 sistemi di valori e 332 dimensioni.
- Il benchmark affronta sfide a livello di dataset, valutazione e sistema.
- I valori degli agenti divergono da quelli dei loro LLM sottostanti.
- Ogni istanza è co-sintetizzata attraverso una pipeline end-to-end.
- Le istanze sono curate singolarmente da annotatori professionisti.
- La ricerca è pubblicata su arXiv con l'identificatore 2605.10365.
Entità
Istituzioni
- arXiv