KellyBench: I Modelli di IA Perdono Denaro nel Benchmark delle Scommesse Sportive

ai-technology · 2026-05-01

I ricercatori hanno introdotto KellyBench, un benchmark per valutare il processo decisionale sequenziale in ambienti a lungo termine e non stazionari, utilizzando i mercati delle scommesse sportive come banco di prova. L'ambiente simula la stagione 2023-24 della Premier League inglese, in cui gli agenti devono massimizzare la crescita del bankroll a lungo termine utilizzando dati storici dettagliati, tra cui statistiche avanzate, formazioni e quote pubbliche. Tutti i modelli linguistici all'avanguardia valutati hanno perso denaro in media su cinque seed, con il modello con le migliori prestazioni che ha ottenuto un rendimento medio del -8% e molti hanno subito la rovina. Il benchmark evidenzia la difficoltà di adattarsi ad ambienti mutevoli e di identificare un vantaggio di mercato, aree in cui i modelli attuali sono carenti.

Fatti principali

KellyBench valuta il processo decisionale sequenziale nei mercati delle scommesse sportive.
L'ambiente simula la stagione 2023-24 della Premier League inglese.
Gli agenti devono massimizzare la crescita del bankroll a lungo termine utilizzando dati storici.
I dati includono statistiche avanzate, formazioni e quote pubbliche.
Tutti i modelli all'avanguardia valutati hanno perso denaro in media su cinque seed.
Il modello con le migliori prestazioni ha ottenuto un rendimento medio del -8%.
Molti modelli hanno subito la rovina attraverso i seed.
Il benchmark testa l'adattamento ad ambienti non stazionari.

Entità

—

Fonti

arXiv cs.AI — 2026-05-01