Agenti RL superficiali padroneggiano il gioco di carte Schnapsen

other · 2026-05-20

Un recente preprint su arXiv (2605.17162) esplora la capacità di agenti neurali superficiali di padroneggiare il gioco di carte Schnapsen e competere contro un formidabile benchmark basato su ricerca, RdeepBot, che impiega campionamento Monte Carlo insieme a tecniche di ricerca lookahead. Lo studio, guidato da un quadro sperimentale progressivamente complesso, valuta prima un agente di apprendimento supervisionato (MLPBot) addestrato su dati di replay, seguito da un agente di apprendimento per rinforzo (RLBot) che utilizza la stessa architettura superficiale ma addestrato tramite aggiornamenti Monte Carlo asincroni e replay di esperienze. I risultati indicano che l'imitazione supervisionata manca della generalizzazione necessaria per superare RdeepBot, mentre l'apprendimento per rinforzo produce agenti significativamente più forti. In particolare, la performance ottimale si verifica quando la funzione valore appresa è integrata con un lookahead più profondo, consentendo a RLBot di raggiungere tassi di vittoria statisticamente significativi più alti contro il forte baseline.

Fatti principali

arXiv:2605.17162
Agenti neurali superficiali investigati per Schnapsen
Baseline: RdeepBot (campionamento Monte Carlo + ricerca lookahead)
Agente supervisionato: MLPBot addestrato su dati di replay
Agente di apprendimento per rinforzo: RLBot con stessa architettura superficiale
RLBot addestrato tramite aggiornamenti Monte Carlo asincroni e replay di esperienze
L'imitazione supervisionata non riesce a battere forti avversari RdeepBot
RLBot raggiunge tassi di vittoria statisticamente significativi più alti se combinato con lookahead più profondo

Agenti RL superficiali padroneggiano il gioco di carte Schnapsen

Fatti principali

Entità

Istituzioni

Fonti