ARTFEED — Contemporary Art Intelligence

AgentLens rivela il problema del Lucky Pass nella valutazione degli agenti SWE

other · 2026-05-14

Una recente pubblicazione su arXiv (2605.12925) presenta AgentLens, un framework progettato per valutare le traiettorie degli agenti di ingegneria del software (SWE) a livello di processo. Lo studio analizza 2.614 traiettorie di OpenHands su otto backend di modelli, concentrandosi su 60 compiti verificati di SWE-bench. Su 1.815 traiettorie riuscite in una selezione di 47 compiti, il 10,7% mostra un 'Lucky Pass', indicando che gli agenti hanno successo attraverso tentativi ed errori casuali invece che con metodi sistematici. Inoltre, gli autori hanno introdotto AgentLens-Bench, un dataset composto da 1.815 traiettorie che includono annotazioni per punteggi di qualità, segnali di spreco e punti di divergenza.

Fatti principali

  • Il paper arXiv 2605.12925 introduce il framework AgentLens
  • Valuta 2.614 traiettorie di OpenHands da otto backend di modelli
  • Utilizza 60 compiti verificati di SWE-bench
  • 47 compiti hanno abbastanza traiettorie riuscite per riferimenti di processo
  • Sottoinsieme di valutazione di 1.815 traiettorie
  • Il 10,7% delle traiettorie riuscite sono Lucky Pass
  • Lucky Pass include cicli di regressione, tentativi ciechi, verifica mancante, esplorazione temporalmente disordinata
  • Dataset AgentLens-Bench rilasciato con punteggi di qualità, segnali di spreco, punti di divergenza

Entità

Istituzioni

  • arXiv
  • OpenHands
  • SWE-bench

Fonti