ARMS: Modellazione Automatica della Ricompensa per Apprendimento per Rinforzo Multi-Agente con Ricompense Sparse

ai-technology · 2026-05-25

I ricercatori propongono ARMS, un framework di modellazione della ricompensa auto-supervisionato per l'apprendimento per rinforzo multi-agente (MARL) che affronta le ricompense sparse apprendendo segnali di modellazione densi dal ranking delle traiettorie. Il metodo riformula l'invarianza delle politiche attraverso il ragionamento condizionale di miglior risposta, dimostrando che, sotto determinate condizioni, le ricompense di modellazione preservano l'insieme delle migliori risposte di ciascun agente e l'insieme degli equilibri di Nash. Ciò preserva la struttura strategica del problema, a differenza della modellazione standard della ricompensa che può solo migliorare l'ottimizzazione a breve termine. Il lavoro è presentato nell'articolo arXiv 2605.23562.

Fatti principali

ARMS sta per Automatic Reward-shaping in Multi-agent Systems (Modellazione Automatica della Ricompensa in Sistemi Multi-Agente).
È un framework auto-supervisionato per MARL.
Apprende segnali di modellazione densi da ricompense ambientali sparse.
Il ranking delle traiettorie viene utilizzato per generare segnali di modellazione.
Le garanzie per un singolo agente non si trasferiscono direttamente al MARL.
Il framework utilizza il ragionamento condizionale di miglior risposta.
Le ricompense di modellazione preservano l'insieme delle migliori risposte di ciascun agente sotto politiche avversarie fisse.
L'insieme degli equilibri di Nash viene preservato sotto determinate condizioni.

Entità

—

Fonti

arXiv cs.AI — 2026-05-25