Reflex: Sfruttare la Simmetria di Riflessione nel RL Basato sullo Stato
Un nuovo paradigma di apprendimento per rinforzo chiamato Reflex sfrutta la simmetria di riflessione nei compiti di controllo continuo basati sullo stato per migliorare l'efficienza del campionamento. Il lavoro formalizza i tipi di riflessione assiale e bilaterale e le loro trasformazioni, integrando la simmetria nell'apprendimento delle politiche tramite meccanismi di regolarizzazione. Reflex è compatibile sia con algoritmi on-policy che off-policy. L'approccio affronta l'area poco esplorata della simmetria di riflessione nel RL basato sullo stato, in contrasto con i precedenti lavori focalizzati sul RL basato su immagini e sulla simmetria rotazionale come SO(2). L'articolo è pubblicato su arXiv con identificatore 2605.23415.
Fatti principali
- Reflex è un paradigma per l'apprendimento per rinforzo con simmetria di riflessione.
- Si rivolge a compiti di controllo continuo basati sullo stato.
- Vengono formalizzati due tipi di riflessione: assiale e bilaterale.
- Reflex integra la simmetria tramite meccanismi di regolarizzazione basati su principi.
- Funziona sia con algoritmi RL on-policy che off-policy.
- I lavori precedenti si sono concentrati sul RL basato su immagini e sulla simmetria rotazionale (SO(2)).
- L'articolo è su arXiv con ID 2605.23415.
- Reflex mira a migliorare l'efficienza del campionamento nel RL.
Entità
Istituzioni
- arXiv