Il benchmark Dr-CiK testa gli agenti AI sulle previsioni nel mondo reale
I ricercatori hanno introdotto Dr-CiK, un nuovo benchmark progettato per valutare se gli agenti AI possono recuperare e utilizzare autonomamente il contesto di supporto per le previsioni di serie temporali. A differenza dei benchmark esistenti che presuppongono che il contesto sia già fornito, Dr-CiK richiede agli agenti di cercare in un corpus di documenti, filtrare le informazioni irrilevanti, distillare prove utili e generare previsioni. I test che combinano metodi all'avanguardia di ricerca approfondita e previsione mostrano che un contesto di alta qualità migliora significativamente le prestazioni, ma la maggior parte degli agenti recupera solo una piccola frazione del contesto reale. Il benchmark mira a colmare il divario tra compiti di previsione controllati e scenari del mondo reale in cui il contesto deve essere attivamente scoperto da fonti eterogenee e rumorose.
Fatti principali
- Dr-CiK è un benchmark per valutare agenti di previsione assistiti dal contesto.
- Richiede agli agenti di recuperare, filtrare, distillare e utilizzare il contesto da un corpus di documenti.
- I benchmark esistenti presuppongono che il contesto di supporto sia già fornito.
- Un contesto di alta qualità migliora sostanzialmente le prestazioni di previsione in Dr-CiK.
- La maggior parte degli agenti di ricerca approfondita recupera solo una piccola frazione del contesto reale.
- Il benchmark affronta le previsioni nel mondo reale dove il contesto deve essere attivamente scoperto.
- Sono stati valutati metodi all'avanguardia di ricerca approfondita e previsione.
- Lo studio è stato pubblicato su arXiv con ID 2605.27904.
Entità
Istituzioni
- arXiv