Benchmark imperfetti sopravvalutano le prestazioni degli agenti AI
Uno studio recente indica che uno script di replay da 1 MB, che esegue azioni registrate senza osservare lo schermo, supera i modelli leader nei principali benchmark statici per gli agenti di utilizzo del computer (CUA). I ricercatori dimostrano che in ambienti deterministici, il tasso di successo atteso di questo script corrisponde alla metrica pass@k dell'agente sorgente, evidenziando un grave difetto nelle tecniche di valutazione esistenti. Identificano due cause principali per queste carenze: ambienti mal progettati (statici, non sandboxati o verificati in modo inadeguato) e metodi di valutazione imperfetti (aggregazione ingenua e uso inappropriato di pass@k in interazioni UI stateful). Per affrontare il primo problema, gli autori introducono PRISM, un framework di cinque principi di progettazione per ambienti CUA: verifica privilegiata, impostazioni realistiche, configurazioni con integrità verificata, esecuzione in sandbox e variabilità multifattoriale. Lo studio è disponibile su arXiv con l'identificatore 2605.08261.
Fatti principali
- Uno script di replay da 1 MB che non osserva mai lo schermo supera i modelli all'avanguardia nei benchmark CUA statici.
- Il tasso di successo atteso dello script equivale al pass@k dell'agente sorgente in ambienti deterministici.
- Due cause principali identificate: progettazione ambientale non basata su principi e metodologia di valutazione non basata su principi.
- PRISM è proposto come cinque principi di progettazione per ambienti CUA.
- Lo studio è disponibile su arXiv con ID 2605.08261.
Entità
Istituzioni
- arXiv