WebForge Framework Risolve il Trilemma dei Benchmark per Agenti Browser con una Pipeline Automatizzata
Un nuovo framework automatizzato chiamato WebForge è stato introdotto per affrontare il trilemma di lunga data nei benchmark per agenti browser. Questo framework impiega una pipeline a quattro agenti composta da Pianificare, Generare, Affinare e Convalidare per creare ambienti web interattivi senza intervento umano. WebForge-Bench, costruito utilizzando questo sistema, comprende 934 task distribuiti in 7 domini e 3 livelli di difficoltà. Il framework di controllo della difficoltà a sette dimensioni struttura i task in base alla profondità di navigazione, alla complessità visiva e alla difficoltà di ragionamento. Esperimenti multi-modello dimostrano che questa stratificazione della difficoltà differenzia efficacemente le capacità dei modelli. I benchmark esistenti hanno faticato a bilanciare realismo, riproducibilità e scalabilità. I benchmark su siti web reali soffrono di deriva dei contenuti, mentre gli ambienti controllati mancano del rumore tipico del web reale. Entrambi gli approcci hanno richiesto una costosa cura manuale che limita la scalabilità. WebForge rappresenta la prima soluzione completamente automatizzata a questo problema, consentendo una profilazione sistematica delle capacità che va oltre i singoli punteggi aggregati.
Fatti principali
- WebForge è un framework completamente automatizzato per il benchmarking di agenti browser
- Risolve il trilemma realismo-riproducibilità-scalabilità
- Il framework utilizza una pipeline a quattro agenti: Pianificare, Generare, Affinare, Convalidare
- WebForge-Bench contiene 934 task distribuiti in 7 domini e 3 livelli di difficoltà
- Un framework di controllo della difficoltà a sette dimensioni struttura la progettazione dei task
- Esperimenti multi-modello mostrano un'effettiva differenziazione delle capacità dei modelli
- I benchmark esistenti affrontano la deriva dei contenuti negli approcci basati su siti web reali
- Gli ambienti controllati sacrificano il realismo omettendo il rumore tipico del web reale
Entità
Istituzioni
- arXiv