LongDS-Bench: Benchmarking di Agenti per Analisi Dati a Lungo Termine

ai-technology · 2026-06-01

Un nuovo benchmark chiamato LongDS-Bench è stato sviluppato da ricercatori per valutare gli agenti AI su compiti di analisi dati a lungo orizzonte e multi-turno. Questo benchmark presenta 68 compiti tratti da notebook Kaggle reali, per un totale di 2.225 turni in sei diversi settori, tra cui Business, Geoscienze e Istruzione. Gli agenti devono gestire, aggiornare, ripristinare e creare stati analitici in evoluzione, con una durata media delle dipendenze di 11,3 turni. Testando cinque modelli avanzati, la precisione massima raggiunta è stata solo del 48,45%, con un calo di quasi 47 punti percentuali dalle fasi iniziali a quelle finali. Gli errori a lungo orizzonte sono stati responsabili del 52%–69% dei fallimenti, sottolineando le difficoltà nel mantenere il contesto analitico durante interazioni prolungate.

Fatti principali

LongDS-Bench valuta gli agenti AI su analisi dati a lungo orizzonte e multi-turno.
Il benchmark include 68 compiti da notebook Kaggle reali.
I compiti coprono 2.225 turni in sei domini: Geoscienze, Business e Istruzione.
La durata media delle dipendenze è di 11,3 turni.
Il miglior modello ha raggiunto una precisione media del 48,45%.
Le prestazioni sono calate di quasi 47 punti dai turni iniziali a quelli finali.
Gli errori a lungo orizzonte rappresentano il 52%–69% dei fallimenti.
I compiti coinvolgono pattern di evoluzione dello stato come perturbazione controfattuale e rollback.

LongDS-Bench: Benchmarking di Agenti per Analisi Dati a Lungo Termine

Fatti principali

Entità

Istituzioni

Fonti