MTG-Causal-RL: Un Benchmark per l'Apprendimento per Rinforzo Causale in Giochi di Carte Complessi

ai-technology · 2026-05-09

Un nuovo benchmark per l'apprendimento per rinforzo causale, chiamato MTG-Causal-RL, è stato sviluppato dai ricercatori utilizzando Magic: The Gathering. Questo ambiente include uno spazio di osservazione parziale di 3.077 dimensioni e uno spazio di azioni discrete mascherato con 478 azioni possibili. Presenta cinque archetipi Standard competitivi e tre diversi schemi di ricompensa, insieme a un Modello Causale Strutturale (SCM) costruito a mano focalizzato su variabili strategiche. Ogni episodio rivela variabili causali, effetti di intervento previsti dall'SCM e tracce di credito per ciascun fattore, facilitando l'assegnazione del credito causale, il trasferimento tra archetipi e la verificabilità delle politiche. Gli autori hanno modificato varie baseline, tra cui casuale, euristica e PPO mascherato, e hanno introdotto il Causal Graph-Factored Advantage PPO (CGFA-PPO) come algoritmo causale di riferimento. Questa ricerca colma una lacuna nei benchmark per sistemi complessi che coinvolgono decisioni sequenziali, informazioni nascoste, ampi spazi di azioni mascherati e chiare strutture causali.

Fatti principali

MTG-Causal-RL è un benchmark Gymnasium basato su Magic: The Gathering.
Lo spazio di osservazione è di 3.077 dimensioni.
Lo spazio delle azioni è discreto mascherato con 478 azioni.
Include cinque archetipi Standard competitivi.
Sono forniti tre schemi di ricompensa.
Modello Causale Strutturale (SCM) specificato manualmente su variabili strategiche.
Espone variabili causali, effetti di intervento previsti dall'SCM e tracce di credito per fattore.
Propone il Causal Graph-Factored Advantage PPO (CGFA-PPO) come algoritmo di riferimento.

MTG-Causal-RL: Un Benchmark per l'Apprendimento per Rinforzo Causale in Giochi di Carte Complessi

Fatti principali

Entità

Istituzioni

Fonti