Agenti RL superficiali padroneggiano il gioco di carte Schnapsen
Un recente preprint su arXiv (2605.17162) esplora la capacità di agenti neurali superficiali di padroneggiare il gioco di carte Schnapsen e competere contro un formidabile benchmark basato su ricerca, RdeepBot, che impiega campionamento Monte Carlo insieme a tecniche di ricerca lookahead. Lo studio, guidato da un quadro sperimentale progressivamente complesso, valuta prima un agente di apprendimento supervisionato (MLPBot) addestrato su dati di replay, seguito da un agente di apprendimento per rinforzo (RLBot) che utilizza la stessa architettura superficiale ma addestrato tramite aggiornamenti Monte Carlo asincroni e replay di esperienze. I risultati indicano che l'imitazione supervisionata manca della generalizzazione necessaria per superare RdeepBot, mentre l'apprendimento per rinforzo produce agenti significativamente più forti. In particolare, la performance ottimale si verifica quando la funzione valore appresa è integrata con un lookahead più profondo, consentendo a RLBot di raggiungere tassi di vittoria statisticamente significativi più alti contro il forte baseline.
Fatti principali
- arXiv:2605.17162
- Agenti neurali superficiali investigati per Schnapsen
- Baseline: RdeepBot (campionamento Monte Carlo + ricerca lookahead)
- Agente supervisionato: MLPBot addestrato su dati di replay
- Agente di apprendimento per rinforzo: RLBot con stessa architettura superficiale
- RLBot addestrato tramite aggiornamenti Monte Carlo asincroni e replay di esperienze
- L'imitazione supervisionata non riesce a battere forti avversari RdeepBot
- RLBot raggiunge tassi di vittoria statisticamente significativi più alti se combinato con lookahead più profondo
Entità
Istituzioni
- arXiv