Agent Island: Benchmark Dinamico per Agenti Basati su Modelli Linguistici

ai-technology · 2026-05-07

Agent Island è un ambiente di simulazione multiplayer in cui agenti basati su modelli linguistici competono in giochi di cooperazione, conflitto e persuasione. Funge da benchmark dinamico progettato per resistere a saturazione e contaminazione, problemi comuni nei benchmark statici. Nuovi modelli possono sempre superare il leader attuale in questo gioco winner-take-all, poiché gli agenti affrontano avversari adattivi anziché compiti fissi. I giocatori sono classificati utilizzando un modello bayesiano di Plackett-Luce, che quantifica l'incertezza nell'abilità. In 999 partite che coinvolgono 49 modelli unici, openai/gpt-5.5 è in testa con una media a posteriori dell'abilità di 5.64, seguito da openai/gpt-5.2 a 3.10 e openai/gpt-5.3-codex a 2.86. I log delle partite sono rilasciati come dataset.

Fatti principali

Agent Island è un ambiente di simulazione multiplayer per agenti basati su modelli linguistici.
Il benchmark è progettato per mitigare saturazione e contaminazione.
Nuovi modelli possono sempre superare il giocatore leader attuale.
Gli agenti competono contro altri agenti adattivi, non contro compiti fissi.
La classifica utilizza un modello bayesiano di Plackett-Luce.
Sono state giocate 999 partite con 49 modelli unici.
openai/gpt-5.5 ha una media a posteriori dell'abilità di 5.64.
openai/gpt-5.2 ha una media a posteriori dell'abilità di 3.10.
openai/gpt-5.3-codex ha una media a posteriori dell'abilità di 2.86.
I log delle partite sono rilasciati come dataset.

Entità

—

Fonti

arXiv cs.AI — 2026-05-07