WebGameBench: Valutare gli Agenti di Codifica tramite Giochi per Browser

other · 2026-05-20

WebGameBench è un benchmark innovativo progettato per valutare la capacità degli agenti di codifica di trasformare una specifica strutturata in un gioco accessibile tramite browser. Invece di concentrarsi sul codice sorgente o sugli output intermedi, analizza il prodotto finale. Ogni gioco creato viene costruito, servito e presentato attraverso un protocollo standardizzato, seguito da una valutazione in un ambiente browser reale. Questo processo produce una classificazione di ECCELLENTE, UTILIZZABILE o INUTILIZZABILE. Il benchmark utilizza giochi nativi del browser come terreno di prova compatto ma ricco di comportamenti, che richiede una gestione coordinata degli input, mappatura spaziale, implementazione delle regole, cambiamenti di stato, condizioni terminali, comportamento di riavvio e feedback visibile. Un sottoinsieme dei risultati viene validato da revisori umani.

Fatti principali

WebGameBench valuta gli agenti di codifica su compiti da requisiti ad applicazioni.
Utilizza giochi nativi del browser come banchi di prova.
Gli artefatti generati vengono costruiti, serviti ed esposti sotto un protocollo di deployment unificato.
Un valutatore runtime assegna etichette: ECCELLENTE, UTILIZZABILE o INUTILIZZABILE.
Un sottoinsieme revisionato da umani conferma le etichette runtime.
I giochi richiedono gestione degli input, mappatura spaziale, esecuzione delle regole, transizioni di stato, condizioni terminali, comportamento di riavvio e feedback visibile.
Il benchmark si concentra sulle applicazioni consegnate, non sul codice sorgente o tracce intermedie.
WebGameBench è introdotto nell'articolo arXiv 2605.17637.

WebGameBench: Valutare gli Agenti di Codifica tramite Giochi per Browser

Fatti principali

Entità

Istituzioni

Fonti