Il benchmark Ambig-DS svela l'ambiguità nell'inquadramento dei compiti negli agenti di data science

other · 2026-05-12

I ricercatori hanno introdotto Ambig-DS, un benchmark progettato per valutare come gli agenti di data science gestiscono l'ambiguità nell'inquadramento dei compiti. Mentre gli agenti evolvono da co-piloti a auto-piloti, potrebbero impegnarsi silenziosamente in inquadramenti plausibili ma non intenzionali, producendo artefatti puliti che nascondono valutazioni errate. Ambig-DS comprende due suite diagnostiche: Ambig-DS-Target (51 compiti basati su DSBench, un benchmark di modellazione tabellare) per l'ambiguità dell'obiettivo di previsione, e Ambig-DS-Objective (61 compiti basati su MLE-bench, un benchmark di competizioni ML in stile Kaggle) per l'ambiguità dell'obiettivo di valutazione. Ogni compito abbina una versione originale completamente specificata con una variante ambigua creata tramite modifiche controllate, verificata da un pipeline umano-LLM per garantire interpretazioni multiple plausibili. Il benchmark utilizza il valutatore originale di ciascun benchmark di origine per il punteggio, mirando a rilevare se gli agenti riconoscono compiti sottospecificati piuttosto che solo se i pipeline vengono eseguiti.

Fatti principali

1. Ambig-DS affronta il misframing silenzioso negli agenti di data science
2. Due suite diagnostiche: Ambig-DS-Target (51 compiti) e Ambig-DS-Objective (61 compiti)
3. Basati rispettivamente su DSBench e MLE-bench
4. Ogni compito ha varianti originale e ambigua
5. Pipeline di verifica umano-LLM conferma l'ambiguità
6. Il punteggio utilizza i valutatori originali dei benchmark di origine
7. Si concentra sul riconoscimento della sottospecificazione da parte degli agenti
8. Pubblicato su arXiv come 2605.09698v1

Il benchmark Ambig-DS svela l'ambiguità nell'inquadramento dei compiti negli agenti di data science

Fatti principali

Entità

Istituzioni

Fonti