Apprendimento per Rinforzo con Azioni Parametrizzate tramite Astrazioni Online
I ricercatori hanno sviluppato un nuovo approccio di apprendimento per rinforzo per spazi di azioni parametrizzate, che coinvolgono sia scelte di azioni discrete che parametri continui. I metodi esistenti faticano: la pianificazione richiede modelli fatti a mano, e gli algoritmi standard di RL gestiscono un solo tipo. Il metodo proposto consente agli agenti di apprendere autonomamente astrazioni di stato e azione online, raffinandole progressivamente durante l'apprendimento. Questo estende il RL a contesti con orizzonti lunghi e ricompense sparse. Il lavoro è pubblicato su arXiv (2512.20831).
Fatti principali
- Articolo arXiv 2512.20831
- Affronta spazi di azioni parametrizzate
- Combina azioni discrete e parametri continui
- I metodi di pianificazione esistenti necessitano di modelli fatti a mano
- Gli algoritmi standard di RL gestiscono azioni discrete o continue
- Il nuovo metodo apprende astrazioni online
- Le astrazioni vengono raffinate durante l'apprendimento
- Mirato a contesti con orizzonti lunghi e ricompense sparse
Entità
Istituzioni
- arXiv