Modalità di Fallimento del Policy Gradient in Problemi di Danno Cumulativo a Lungo Orizzonte
Un recente articolo su arXiv (2605.26657) rivela due distinte modalità di fallimento per le tecniche di policy gradient in scenari decisionali a lungo orizzonte che coinvolgono danni cumulativi: completamento (raggiungimento della fine dell'orizzonte) e ottimalità (allineamento con la programmazione dinamica). Utilizzando PPO con una penalità soft lineare, l'accesso all'orizzonte riduce il tasso di completamento, poiché l'equilibrio della penalità porta la quota di attività dominante a zero. Sebbene restringere lo spazio delle azioni consentendo l'accesso all'orizzonte garantisca il completamento, si traduce in un divario di ottimalità (ΔM_finale = 0,271), legato a un impegno greedy nella fase iniziale all'origine del danno. Gli autori propongono quattro previsioni verificabili e le valutano in due ambienti calibrati indipendentemente con una struttura astratta comune.
Fatti principali
- L'articolo arXiv:2605.26657 identifica completamento e ottimalità come due modalità di fallimento per i metodi policy gradient in problemi di danno cumulativo.
- Con PPO e penalità soft lineare, il solo accesso all'orizzonte riduce il tasso di completamento.
- La restrizione dello spazio delle azioni con accesso all'orizzonte raggiunge il completamento ma lascia un divario di ottimalità di 0,271.
- Il divario di ottimalità è ricondotto a un impegno greedy nella prima fase all'origine del danno.
- Quattro previsioni verificabili sono derivate e valutate in due ambienti calibrati.
- Gli ambienti condividono la stessa struttura astratta ma sono calibrati separatamente.
- I problemi di danno cumulativo accoppiano azioni localmente attraenti a risultati globalmente avversi.
- L'articolo propone una scomposizione che separa completamento e ottimalità.
Entità
Istituzioni
- arXiv