Maximum Entropy Adjoint Matching migliora l'ottimizzazione delle policy nell'RL offline

publication · 2026-05-09

Un nuovo articolo su arXiv (2605.06156) propone Maximum Entropy Adjoint Matching (ME-AM), un framework per affrontare le limitazioni nell'apprendimento per rinforzo offline con policy basate su flow-matching. Il Q-learning con Adjoint Matching (QAM) esistente soffre di bias di popolarità e binding di supporto, che sopprimono le azioni ad alta ricompensa in regioni a bassa densità e limitano l'esplorazione fuori dal manifold. ME-AM incorpora la massimizzazione dell'entropia tramite Mirror Descent per superare questi problemi all'interno della formulazione a flusso continuo, offrendo una soluzione unificata senza i colli di bottiglia di espressività delle policy gaussiane residue.

Fatti principali

L'articolo arXiv:2605.06156 propone Maximum Entropy Adjoint Matching (ME-AM)
ME-AM affronta il bias di popolarità e il binding di supporto nell'RL offline
Il Q-learning con Adjoint Matching (QAM) è il metodo di base
ME-AM utilizza la massimizzazione dell'entropia tramite Mirror Descent
Il framework opera all'interno della formulazione a flusso continuo
Le policy gaussiane residue reintroducono colli di bottiglia di espressività
ME-AM unifica le soluzioni alle limitazioni del QAM
L'articolo è un annuncio cross-type su arXiv

Maximum Entropy Adjoint Matching migliora l'ottimizzazione delle policy nell'RL offline

Fatti principali

Entità

Istituzioni

Fonti