Agent Island: Benchmark Dinamico per Agenti Basati su Modelli Linguistici
Agent Island è un ambiente di simulazione multiplayer in cui agenti basati su modelli linguistici competono in giochi di cooperazione, conflitto e persuasione. Funge da benchmark dinamico progettato per resistere a saturazione e contaminazione, problemi comuni nei benchmark statici. Nuovi modelli possono sempre superare il leader attuale in questo gioco winner-take-all, poiché gli agenti affrontano avversari adattivi anziché compiti fissi. I giocatori sono classificati utilizzando un modello bayesiano di Plackett-Luce, che quantifica l'incertezza nell'abilità. In 999 partite che coinvolgono 49 modelli unici, openai/gpt-5.5 è in testa con una media a posteriori dell'abilità di 5.64, seguito da openai/gpt-5.2 a 3.10 e openai/gpt-5.3-codex a 2.86. I log delle partite sono rilasciati come dataset.
Fatti principali
- Agent Island è un ambiente di simulazione multiplayer per agenti basati su modelli linguistici.
- Il benchmark è progettato per mitigare saturazione e contaminazione.
- Nuovi modelli possono sempre superare il giocatore leader attuale.
- Gli agenti competono contro altri agenti adattivi, non contro compiti fissi.
- La classifica utilizza un modello bayesiano di Plackett-Luce.
- Sono state giocate 999 partite con 49 modelli unici.
- openai/gpt-5.5 ha una media a posteriori dell'abilità di 5.64.
- openai/gpt-5.2 ha una media a posteriori dell'abilità di 3.10.
- openai/gpt-5.3-codex ha una media a posteriori dell'abilità di 2.86.
- I log delle partite sono rilasciati come dataset.
Entità
—