Modalità di Fallimento del Policy Gradient in Problemi di Danno Cumulativo a Lungo Orizzonte

publication · 2026-05-27

Un recente articolo su arXiv (2605.26657) rivela due distinte modalità di fallimento per le tecniche di policy gradient in scenari decisionali a lungo orizzonte che coinvolgono danni cumulativi: completamento (raggiungimento della fine dell'orizzonte) e ottimalità (allineamento con la programmazione dinamica). Utilizzando PPO con una penalità soft lineare, l'accesso all'orizzonte riduce il tasso di completamento, poiché l'equilibrio della penalità porta la quota di attività dominante a zero. Sebbene restringere lo spazio delle azioni consentendo l'accesso all'orizzonte garantisca il completamento, si traduce in un divario di ottimalità (ΔM_finale = 0,271), legato a un impegno greedy nella fase iniziale all'origine del danno. Gli autori propongono quattro previsioni verificabili e le valutano in due ambienti calibrati indipendentemente con una struttura astratta comune.

Fatti principali

L'articolo arXiv:2605.26657 identifica completamento e ottimalità come due modalità di fallimento per i metodi policy gradient in problemi di danno cumulativo.
Con PPO e penalità soft lineare, il solo accesso all'orizzonte riduce il tasso di completamento.
La restrizione dello spazio delle azioni con accesso all'orizzonte raggiunge il completamento ma lascia un divario di ottimalità di 0,271.
Il divario di ottimalità è ricondotto a un impegno greedy nella prima fase all'origine del danno.
Quattro previsioni verificabili sono derivate e valutate in due ambienti calibrati.
Gli ambienti condividono la stessa struttura astratta ma sono calibrati separatamente.
I problemi di danno cumulativo accoppiano azioni localmente attraenti a risultati globalmente avversi.
L'articolo propone una scomposizione che separa completamento e ottimalità.

Modalità di Fallimento del Policy Gradient in Problemi di Danno Cumulativo a Lungo Orizzonte

Fatti principali

Entità

Istituzioni

Fonti