ARTFEED — Contemporary Art Intelligence

Agent Island: Benchmark Dinamico per Agenti Basati su Modelli Linguistici

ai-technology · 2026-05-07

Agent Island è un ambiente di simulazione multiplayer in cui agenti basati su modelli linguistici competono in giochi di cooperazione, conflitto e persuasione. Funge da benchmark dinamico progettato per resistere a saturazione e contaminazione, problemi comuni nei benchmark statici. Nuovi modelli possono sempre superare il leader attuale in questo gioco winner-take-all, poiché gli agenti affrontano avversari adattivi anziché compiti fissi. I giocatori sono classificati utilizzando un modello bayesiano di Plackett-Luce, che quantifica l'incertezza nell'abilità. In 999 partite che coinvolgono 49 modelli unici, openai/gpt-5.5 è in testa con una media a posteriori dell'abilità di 5.64, seguito da openai/gpt-5.2 a 3.10 e openai/gpt-5.3-codex a 2.86. I log delle partite sono rilasciati come dataset.

Fatti principali

  • Agent Island è un ambiente di simulazione multiplayer per agenti basati su modelli linguistici.
  • Il benchmark è progettato per mitigare saturazione e contaminazione.
  • Nuovi modelli possono sempre superare il giocatore leader attuale.
  • Gli agenti competono contro altri agenti adattivi, non contro compiti fissi.
  • La classifica utilizza un modello bayesiano di Plackett-Luce.
  • Sono state giocate 999 partite con 49 modelli unici.
  • openai/gpt-5.5 ha una media a posteriori dell'abilità di 5.64.
  • openai/gpt-5.2 ha una media a posteriori dell'abilità di 3.10.
  • openai/gpt-5.3-codex ha una media a posteriori dell'abilità di 2.86.
  • I log delle partite sono rilasciati come dataset.

Entità

Fonti