HiL-Bench: Valutare la Capacità di Giudizio degli Agenti AI nel Chiedere Aiuto

ai-technology · 2026-05-01

Un nuovo benchmark, HiL-Bench (Human-in-the-Loop Benchmark), affronta una critica modalità di fallimento negli agenti di codifica avanzati: la loro incapacità di riconoscere quando chiedere aiuto. Mentre questi agenti eccellono in compiti complessi con contesto completo, collassano in presenza di specifiche ambigue o incomplete. Gli attuali benchmark premiano solo la correttezza dell'esecuzione, ignorando il divario di giudizio. HiL-Bench introduce compiti con blocchi convalidati dall'uomo—informazioni mancanti, richieste ambigue o contraddizioni—che emergono solo attraverso un'esplorazione progressiva. La sua metrica principale, Ask-F1, bilancia la precisione delle domande e il richiamo dei blocchi per penalizzare sia il chiedere troppo che l'indovinare in silenzio. Il benchmark mira a misurare l'abilità di escalation selettiva, un collo di bottiglia chiave nell'AI autonoma.

Fatti principali

1. HiL-Bench sta per Human-in-the-Loop Benchmark.
2. Misura la capacità degli agenti AI di chiedere aiuto quando si trovano di fronte a specifiche ambigue o incomplete.
3. Gli attuali benchmark sono ciechi a questa modalità di fallimento, premiando solo la correttezza dell'esecuzione.
4. Ogni compito contiene blocchi convalidati dall'uomo che emergono attraverso un'esplorazione progressiva.
5. La metrica principale è Ask-F1, la media armonica tra precisione delle domande e richiamo dei blocchi.
6. Gli agenti di codifica avanzati collassano quando le specifiche sono incomplete o ambigue.
7. Il collo di bottiglia è il giudizio, non la capacità grezza.
8. Il benchmark è stato introdotto su arXiv con identificatore 2604.09408.

HiL-Bench: Valutare la Capacità di Giudizio degli Agenti AI nel Chiedere Aiuto

Fatti principali

Entità

Istituzioni

Fonti