Apprendimento per Rinforzo con Azioni Parametrizzate tramite Astrazioni Online

ai-technology · 2026-04-27

I ricercatori hanno sviluppato un nuovo approccio di apprendimento per rinforzo per spazi di azioni parametrizzate, che coinvolgono sia scelte di azioni discrete che parametri continui. I metodi esistenti faticano: la pianificazione richiede modelli fatti a mano, e gli algoritmi standard di RL gestiscono un solo tipo. Il metodo proposto consente agli agenti di apprendere autonomamente astrazioni di stato e azione online, raffinandole progressivamente durante l'apprendimento. Questo estende il RL a contesti con orizzonti lunghi e ricompense sparse. Il lavoro è pubblicato su arXiv (2512.20831).

Fatti principali

Articolo arXiv 2512.20831
Affronta spazi di azioni parametrizzate
Combina azioni discrete e parametri continui
I metodi di pianificazione esistenti necessitano di modelli fatti a mano
Gli algoritmi standard di RL gestiscono azioni discrete o continue
Il nuovo metodo apprende astrazioni online
Le astrazioni vengono raffinate durante l'apprendimento
Mirato a contesti con orizzonti lunghi e ricompense sparse

Apprendimento per Rinforzo con Azioni Parametrizzate tramite Astrazioni Online

Fatti principali

Entità

Istituzioni

Fonti