Mahjax: Simulatore di Mahjong Accelerato su GPU per la Ricerca RL
Mahjax è un ambiente di Riichi Mahjong completamente vettorizzato implementato in JAX, progettato per consentire la parallelizzazione su larga scala delle rollout su GPU per la ricerca sull'apprendimento per rinforzo. Il Riichi Mahjong è un gioco multiplayer a informazione imperfetta, con stocasticità e spazi di stato ad alta dimensionalità, che presenta sfide simili a problemi decisionali del mondo reale. L'ambiente supporta l'apprendimento tabula rasa, il che significa che gli algoritmi possono imparare da zero senza fare affidamento su log di partite umane. Mahjax raggiunge throughput fino a 2 milioni di passi di gioco al secondo. Include anche uno strumento di visualizzazione di alta qualità per il debug e l'interazione con agenti addestrati. Il progetto mira a facilitare la ricerca su algoritmi in grado di apprendere giochi complessi senza pre-addestramento supervisionato, seguendo la linea di AlphaZero.
Fatti principali
- Mahjax è un ambiente Riichi Mahjong accelerato su GPU in JAX
- Supporta l'apprendimento per rinforzo tabula rasa da zero
- Raggiunge throughput fino a 2 milioni di passi al secondo
- Include uno strumento di visualizzazione per il debug
- Il Riichi Mahjong è un gioco multiplayer a informazione imperfetta
- Il gioco presenta stocasticità e spazi di stato ad alta dimensionalità
- La ricerca precedente si basava sull'apprendimento supervisionato da log di partite umane
- Mahjax consente la parallelizzazione su larga scala delle rollout su GPU
Entità
—