ARTFEED — Contemporary Art Intelligence

MTG-Causal-RL: Un Benchmark per l'Apprendimento per Rinforzo Causale in Giochi di Carte Complessi

ai-technology · 2026-05-09

Un nuovo benchmark per l'apprendimento per rinforzo causale, chiamato MTG-Causal-RL, è stato sviluppato dai ricercatori utilizzando Magic: The Gathering. Questo ambiente include uno spazio di osservazione parziale di 3.077 dimensioni e uno spazio di azioni discrete mascherato con 478 azioni possibili. Presenta cinque archetipi Standard competitivi e tre diversi schemi di ricompensa, insieme a un Modello Causale Strutturale (SCM) costruito a mano focalizzato su variabili strategiche. Ogni episodio rivela variabili causali, effetti di intervento previsti dall'SCM e tracce di credito per ciascun fattore, facilitando l'assegnazione del credito causale, il trasferimento tra archetipi e la verificabilità delle politiche. Gli autori hanno modificato varie baseline, tra cui casuale, euristica e PPO mascherato, e hanno introdotto il Causal Graph-Factored Advantage PPO (CGFA-PPO) come algoritmo causale di riferimento. Questa ricerca colma una lacuna nei benchmark per sistemi complessi che coinvolgono decisioni sequenziali, informazioni nascoste, ampi spazi di azioni mascherati e chiare strutture causali.

Fatti principali

  • MTG-Causal-RL è un benchmark Gymnasium basato su Magic: The Gathering.
  • Lo spazio di osservazione è di 3.077 dimensioni.
  • Lo spazio delle azioni è discreto mascherato con 478 azioni.
  • Include cinque archetipi Standard competitivi.
  • Sono forniti tre schemi di ricompensa.
  • Modello Causale Strutturale (SCM) specificato manualmente su variabili strategiche.
  • Espone variabili causali, effetti di intervento previsti dall'SCM e tracce di credito per fattore.
  • Propone il Causal Graph-Factored Advantage PPO (CGFA-PPO) come algoritmo di riferimento.

Entità

Istituzioni

  • arXiv

Fonti