ARTFEED — Contemporary Art Intelligence

KellyBench: I Modelli di IA Perdono Denaro nel Benchmark delle Scommesse Sportive

ai-technology · 2026-05-01

I ricercatori hanno introdotto KellyBench, un benchmark per valutare il processo decisionale sequenziale in ambienti a lungo termine e non stazionari, utilizzando i mercati delle scommesse sportive come banco di prova. L'ambiente simula la stagione 2023-24 della Premier League inglese, in cui gli agenti devono massimizzare la crescita del bankroll a lungo termine utilizzando dati storici dettagliati, tra cui statistiche avanzate, formazioni e quote pubbliche. Tutti i modelli linguistici all'avanguardia valutati hanno perso denaro in media su cinque seed, con il modello con le migliori prestazioni che ha ottenuto un rendimento medio del -8% e molti hanno subito la rovina. Il benchmark evidenzia la difficoltà di adattarsi ad ambienti mutevoli e di identificare un vantaggio di mercato, aree in cui i modelli attuali sono carenti.

Fatti principali

  • KellyBench valuta il processo decisionale sequenziale nei mercati delle scommesse sportive.
  • L'ambiente simula la stagione 2023-24 della Premier League inglese.
  • Gli agenti devono massimizzare la crescita del bankroll a lungo termine utilizzando dati storici.
  • I dati includono statistiche avanzate, formazioni e quote pubbliche.
  • Tutti i modelli all'avanguardia valutati hanno perso denaro in media su cinque seed.
  • Il modello con le migliori prestazioni ha ottenuto un rendimento medio del -8%.
  • Molti modelli hanno subito la rovina attraverso i seed.
  • Il benchmark testa l'adattamento ad ambienti non stazionari.

Entità

Fonti