Maximum Entropy Adjoint Matching migliora l'ottimizzazione delle policy nell'RL offline
Un nuovo articolo su arXiv (2605.06156) propone Maximum Entropy Adjoint Matching (ME-AM), un framework per affrontare le limitazioni nell'apprendimento per rinforzo offline con policy basate su flow-matching. Il Q-learning con Adjoint Matching (QAM) esistente soffre di bias di popolarità e binding di supporto, che sopprimono le azioni ad alta ricompensa in regioni a bassa densità e limitano l'esplorazione fuori dal manifold. ME-AM incorpora la massimizzazione dell'entropia tramite Mirror Descent per superare questi problemi all'interno della formulazione a flusso continuo, offrendo una soluzione unificata senza i colli di bottiglia di espressività delle policy gaussiane residue.
Fatti principali
- L'articolo arXiv:2605.06156 propone Maximum Entropy Adjoint Matching (ME-AM)
- ME-AM affronta il bias di popolarità e il binding di supporto nell'RL offline
- Il Q-learning con Adjoint Matching (QAM) è il metodo di base
- ME-AM utilizza la massimizzazione dell'entropia tramite Mirror Descent
- Il framework opera all'interno della formulazione a flusso continuo
- Le policy gaussiane residue reintroducono colli di bottiglia di espressività
- ME-AM unifica le soluzioni alle limitazioni del QAM
- L'articolo è un annuncio cross-type su arXiv
Entità
Istituzioni
- arXiv