MDPO: Esplorazione Stocastica per la Pianificazione Differenziabile
Il framework Model-Driven Policy Optimization (MDPO) presenta un approccio innovativo incorporando l'esplorazione stocastica nella pianificazione differenziabile attraverso l'aggiunta di rumore nello spazio delle azioni durante il processo di ottimizzazione. Adatta il livello di rumore in base alla sensibilità dell'obiettivo della traiettoria derivata dai gradienti, ottenendo un profilo di esplorazione dinamico nel tempo. Questa strategia aiuta a evitare ottimi locali subottimali in ambienti complessi non lineari e ibridi discreti-continui. Test condotti in domini benchmark rivelano paesaggi di ottimizzazione migliorati.
Fatti principali
- La pianificazione differenziabile utilizza l'ottimizzazione basata su gradienti dei problemi decisionali.
- I domini non lineari e ibridi discreti-continui spesso presentano paesaggi di ottimizzazione mal condizionati.
- MDPO inietta rumore nello spazio delle azioni durante l'ottimizzazione.
- La magnitudine del rumore è adattata in base alla sensibilità derivata dal gradiente dell'obiettivo della traiettoria.
- MDPO produce un profilo di esplorazione dipendente dal tempo.
- L'allocazione dinamica dell'esplorazione tra passi temporali e iterazioni aiuta a uscire da ottimi locali poveri.
- Gli esperimenti sono stati condotti su domini benchmark.
- L'articolo è disponibile su arXiv con ID 2605.07520.
Entità
Istituzioni
- arXiv