AgentLens rivela il problema del Lucky Pass nella valutazione degli agenti SWE
Una recente pubblicazione su arXiv (2605.12925) presenta AgentLens, un framework progettato per valutare le traiettorie degli agenti di ingegneria del software (SWE) a livello di processo. Lo studio analizza 2.614 traiettorie di OpenHands su otto backend di modelli, concentrandosi su 60 compiti verificati di SWE-bench. Su 1.815 traiettorie riuscite in una selezione di 47 compiti, il 10,7% mostra un 'Lucky Pass', indicando che gli agenti hanno successo attraverso tentativi ed errori casuali invece che con metodi sistematici. Inoltre, gli autori hanno introdotto AgentLens-Bench, un dataset composto da 1.815 traiettorie che includono annotazioni per punteggi di qualità, segnali di spreco e punti di divergenza.
Fatti principali
- Il paper arXiv 2605.12925 introduce il framework AgentLens
- Valuta 2.614 traiettorie di OpenHands da otto backend di modelli
- Utilizza 60 compiti verificati di SWE-bench
- 47 compiti hanno abbastanza traiettorie riuscite per riferimenti di processo
- Sottoinsieme di valutazione di 1.815 traiettorie
- Il 10,7% delle traiettorie riuscite sono Lucky Pass
- Lucky Pass include cicli di regressione, tentativi ciechi, verifica mancante, esplorazione temporalmente disordinata
- Dataset AgentLens-Bench rilasciato con punteggi di qualità, segnali di spreco, punti di divergenza
Entità
Istituzioni
- arXiv
- OpenHands
- SWE-bench