AgentLens rivela il problema del Lucky Pass nella valutazione degli agenti SWE

other · 2026-05-14

Una recente pubblicazione su arXiv (2605.12925) presenta AgentLens, un framework progettato per valutare le traiettorie degli agenti di ingegneria del software (SWE) a livello di processo. Lo studio analizza 2.614 traiettorie di OpenHands su otto backend di modelli, concentrandosi su 60 compiti verificati di SWE-bench. Su 1.815 traiettorie riuscite in una selezione di 47 compiti, il 10,7% mostra un 'Lucky Pass', indicando che gli agenti hanno successo attraverso tentativi ed errori casuali invece che con metodi sistematici. Inoltre, gli autori hanno introdotto AgentLens-Bench, un dataset composto da 1.815 traiettorie che includono annotazioni per punteggi di qualità, segnali di spreco e punti di divergenza.

Fatti principali

Il paper arXiv 2605.12925 introduce il framework AgentLens
Valuta 2.614 traiettorie di OpenHands da otto backend di modelli
Utilizza 60 compiti verificati di SWE-bench
47 compiti hanno abbastanza traiettorie riuscite per riferimenti di processo
Sottoinsieme di valutazione di 1.815 traiettorie
Il 10,7% delle traiettorie riuscite sono Lucky Pass
Lucky Pass include cicli di regressione, tentativi ciechi, verifica mancante, esplorazione temporalmente disordinata
Dataset AgentLens-Bench rilasciato con punteggi di qualità, segnali di spreco, punti di divergenza

AgentLens rivela il problema del Lucky Pass nella valutazione degli agenti SWE

Fatti principali

Entità

Istituzioni

Fonti