HiL-Bench: Valutare la Capacità di Giudizio degli Agenti AI nel Chiedere Aiuto
Un nuovo benchmark, HiL-Bench (Human-in-the-Loop Benchmark), affronta una critica modalità di fallimento negli agenti di codifica avanzati: la loro incapacità di riconoscere quando chiedere aiuto. Mentre questi agenti eccellono in compiti complessi con contesto completo, collassano in presenza di specifiche ambigue o incomplete. Gli attuali benchmark premiano solo la correttezza dell'esecuzione, ignorando il divario di giudizio. HiL-Bench introduce compiti con blocchi convalidati dall'uomo—informazioni mancanti, richieste ambigue o contraddizioni—che emergono solo attraverso un'esplorazione progressiva. La sua metrica principale, Ask-F1, bilancia la precisione delle domande e il richiamo dei blocchi per penalizzare sia il chiedere troppo che l'indovinare in silenzio. Il benchmark mira a misurare l'abilità di escalation selettiva, un collo di bottiglia chiave nell'AI autonoma.
Fatti principali
- 1. HiL-Bench sta per Human-in-the-Loop Benchmark.
- 2. Misura la capacità degli agenti AI di chiedere aiuto quando si trovano di fronte a specifiche ambigue o incomplete.
- 3. Gli attuali benchmark sono ciechi a questa modalità di fallimento, premiando solo la correttezza dell'esecuzione.
- 4. Ogni compito contiene blocchi convalidati dall'uomo che emergono attraverso un'esplorazione progressiva.
- 5. La metrica principale è Ask-F1, la media armonica tra precisione delle domande e richiamo dei blocchi.
- 6. Gli agenti di codifica avanzati collassano quando le specifiche sono incomplete o ambigue.
- 7. Il collo di bottiglia è il giudizio, non la capacità grezza.
- 8. Il benchmark è stato introdotto su arXiv con identificatore 2604.09408.
Entità
Istituzioni
- arXiv