Dual-Window Smoothing per il Chunking Implicito delle Azioni nel Controllo Continuo
Un nuovo framework di reinforcement learning, denominato Dual-Window Smoothing (DWS), affronta il problema dei segnali di controllo oscillatori ad alta frequenza che minacciano la sicurezza e la stabilità nelle applicazioni reali. A differenza dei metodi tradizionali di action chunking, che prevedono traiettorie a orizzonte fisso e aumentano la dimensione dell'output della politica con la lunghezza dell'orizzonte—causando sfide di ottimizzazione e problemi di interazione passo-passo—DWS mantiene la coerenza temporale senza ampliare lo spazio delle azioni. Presenta un approccio a doppia finestra: la finestra di esecuzione garantisce la scorrevolezza fisica tramite modulazione deterministica, mentre la finestra di valore sincronizza i target temporal-difference lungo l'orizzonte per mitigare il bias del critico dovuto all'esecuzione a ciclo aperto. Inoltre, DWS incorpora un meccanismo temporale leggero sul lato attore. Questa ricerca è documentata in un articolo disponibile su arXiv con ID 2605.19592.
Fatti principali
- Dual-Window Smoothing (DWS) è proposto per un controllo continuo fluido nel reinforcement learning.
- L'action chunking esplicito prevede traiettorie a orizzonte fisso ma scala la dimensione dell'output della politica con la lunghezza dell'orizzonte.
- DWS utilizza una finestra di esecuzione per la scorrevolezza fisica tramite modulazione deterministica.
- DWS utilizza una finestra di valore per allineare i target temporal-difference lungo l'orizzonte.
- DWS corregge il bias del critico causato dall'esecuzione a ciclo aperto.
- DWS include un meccanismo temporale leggero sul lato attore.
- L'articolo è disponibile su arXiv con ID 2605.19592.
Entità
Istituzioni
- arXiv