VitaBench 2.0 valuta agenti AI personalizzati in interazioni a lungo termine
VitaBench 2.0 è stato lanciato dai ricercatori come un nuovo benchmark volto a valutare i comportamenti personalizzati e proattivi degli agenti basati su modelli linguistici di grandi dimensioni (LLM) durante interazioni prolungate con gli utenti. A differenza dei benchmark attuali che privilegiano il ragionamento e l'utilizzo di strumenti, VitaBench 2.0 affronta il problema di dedurre le preferenze degli utenti da scambi quotidiani sporadici. I compiti sono strutturati come sequenze ordinate cronologicamente per ciascun utente, costringendo gli agenti a identificare e applicare coerentemente le preferenze trovate in interazioni eterogenee. L'obiettivo di questo benchmark è migliorare l'evoluzione degli agenti LLM, consentendo loro di interagire in modo più efficace cogliendo le esigenze degli utenti al di là di quanto esplicitamente dichiarato.
Fatti principali
- VitaBench 2.0 è un nuovo benchmark per valutare il comportamento personalizzato e proattivo degli agenti.
- Si concentra su interazioni a lungo termine con gli utenti attraverso compiti ordinati temporalmente.
- Il benchmark colma la lacuna nei benchmark esistenti per agenti che trascurano l'inferenza delle preferenze degli utenti.
- I compiti richiedono agli agenti di estrarre preferenze da interazioni frammentate ed eterogenee.
- Il lavoro è pubblicato su arXiv con identificatore 2605.27141.
Entità
Istituzioni
- arXiv