KellyBench: I Modelli di IA Perdono Denaro nel Benchmark delle Scommesse Sportive
I ricercatori hanno introdotto KellyBench, un benchmark per valutare il processo decisionale sequenziale in ambienti a lungo termine e non stazionari, utilizzando i mercati delle scommesse sportive come banco di prova. L'ambiente simula la stagione 2023-24 della Premier League inglese, in cui gli agenti devono massimizzare la crescita del bankroll a lungo termine utilizzando dati storici dettagliati, tra cui statistiche avanzate, formazioni e quote pubbliche. Tutti i modelli linguistici all'avanguardia valutati hanno perso denaro in media su cinque seed, con il modello con le migliori prestazioni che ha ottenuto un rendimento medio del -8% e molti hanno subito la rovina. Il benchmark evidenzia la difficoltà di adattarsi ad ambienti mutevoli e di identificare un vantaggio di mercato, aree in cui i modelli attuali sono carenti.
Fatti principali
- KellyBench valuta il processo decisionale sequenziale nei mercati delle scommesse sportive.
- L'ambiente simula la stagione 2023-24 della Premier League inglese.
- Gli agenti devono massimizzare la crescita del bankroll a lungo termine utilizzando dati storici.
- I dati includono statistiche avanzate, formazioni e quote pubbliche.
- Tutti i modelli all'avanguardia valutati hanno perso denaro in media su cinque seed.
- Il modello con le migliori prestazioni ha ottenuto un rendimento medio del -8%.
- Molti modelli hanno subito la rovina attraverso i seed.
- Il benchmark testa l'adattamento ad ambienti non stazionari.
Entità
—