LongDS-Bench: Benchmarking di Agenti per Analisi Dati a Lungo Termine
Un nuovo benchmark chiamato LongDS-Bench è stato sviluppato da ricercatori per valutare gli agenti AI su compiti di analisi dati a lungo orizzonte e multi-turno. Questo benchmark presenta 68 compiti tratti da notebook Kaggle reali, per un totale di 2.225 turni in sei diversi settori, tra cui Business, Geoscienze e Istruzione. Gli agenti devono gestire, aggiornare, ripristinare e creare stati analitici in evoluzione, con una durata media delle dipendenze di 11,3 turni. Testando cinque modelli avanzati, la precisione massima raggiunta è stata solo del 48,45%, con un calo di quasi 47 punti percentuali dalle fasi iniziali a quelle finali. Gli errori a lungo orizzonte sono stati responsabili del 52%–69% dei fallimenti, sottolineando le difficoltà nel mantenere il contesto analitico durante interazioni prolungate.
Fatti principali
- LongDS-Bench valuta gli agenti AI su analisi dati a lungo orizzonte e multi-turno.
- Il benchmark include 68 compiti da notebook Kaggle reali.
- I compiti coprono 2.225 turni in sei domini: Geoscienze, Business e Istruzione.
- La durata media delle dipendenze è di 11,3 turni.
- Il miglior modello ha raggiunto una precisione media del 48,45%.
- Le prestazioni sono calate di quasi 47 punti dai turni iniziali a quelli finali.
- Gli errori a lungo orizzonte rappresentano il 52%–69% dei fallimenti.
- I compiti coinvolgono pattern di evoluzione dello stato come perturbazione controfattuale e rollback.
Entità
Istituzioni
- arXiv
- Kaggle