Priorità Dinamiche Migliorano la Coerenza Temporale nell'Addestramento RL

ai-technology · 2026-04-25

Un nuovo framework di addestramento chiamato Dynamical Prior Reinforcement Learning (DP-RL) migliora l'apprendimento del gradiente della politica incorporando una perdita ausiliaria derivata dalle dinamiche di stato esterne, che facilitano l'accumulo di evidenze e l'isteresi. Questa tecnica influenza la progressione delle probabilità di azione senza alterare la ricompensa, l'ambiente o la struttura della politica. In tre ambienti minimi, DP-RL modifica costantemente i percorsi decisionali, incoraggiando azioni temporalmente strutturate che il semplice smoothing non può spiegare. Questo approccio affronta la sfida del comportamento temporalmente incoerente spesso osservato nel RL tradizionale, inclusi cambiamenti improvvisi di confidenza, oscillazioni o inattività. I risultati sono dettagliati nel preprint arXiv 2604.21464.

Fatti principali

1. Il RL standard ottimizza le politiche per la ricompensa ma impone pochi vincoli sull'evoluzione delle decisioni nel tempo.
2. Le politiche possono raggiungere alte prestazioni pur mostrando un comportamento temporalmente incoerente.
3. DP-RL introduce una perdita ausiliaria derivata dalle dinamiche di stato esterne.
4. Il framework implementa l'accumulo di evidenze e l'isteresi.
5. Non vengono apportate modifiche alla ricompensa, all'ambiente o all'architettura della politica.
6. Gli esperimenti sono stati condotti in tre ambienti minimi.
7. Le priorità dinamiche alterano sistematicamente le traiettorie decisionali in modi dipendenti dal compito.
8. I risultati dimostrano che gli obiettivi di addestramento possono modellare la struttura temporale oltre il semplice smoothing.

Priorità Dinamiche Migliorano la Coerenza Temporale nell'Addestramento RL

Fatti principali

Entità

Istituzioni

Fonti