Dual-Window Smoothing per il Chunking Implicito delle Azioni nel Controllo Continuo

other · 2026-05-20

Un nuovo framework di reinforcement learning, denominato Dual-Window Smoothing (DWS), affronta il problema dei segnali di controllo oscillatori ad alta frequenza che minacciano la sicurezza e la stabilità nelle applicazioni reali. A differenza dei metodi tradizionali di action chunking, che prevedono traiettorie a orizzonte fisso e aumentano la dimensione dell'output della politica con la lunghezza dell'orizzonte—causando sfide di ottimizzazione e problemi di interazione passo-passo—DWS mantiene la coerenza temporale senza ampliare lo spazio delle azioni. Presenta un approccio a doppia finestra: la finestra di esecuzione garantisce la scorrevolezza fisica tramite modulazione deterministica, mentre la finestra di valore sincronizza i target temporal-difference lungo l'orizzonte per mitigare il bias del critico dovuto all'esecuzione a ciclo aperto. Inoltre, DWS incorpora un meccanismo temporale leggero sul lato attore. Questa ricerca è documentata in un articolo disponibile su arXiv con ID 2605.19592.

Fatti principali

Dual-Window Smoothing (DWS) è proposto per un controllo continuo fluido nel reinforcement learning.
L'action chunking esplicito prevede traiettorie a orizzonte fisso ma scala la dimensione dell'output della politica con la lunghezza dell'orizzonte.
DWS utilizza una finestra di esecuzione per la scorrevolezza fisica tramite modulazione deterministica.
DWS utilizza una finestra di valore per allineare i target temporal-difference lungo l'orizzonte.
DWS corregge il bias del critico causato dall'esecuzione a ciclo aperto.
DWS include un meccanismo temporale leggero sul lato attore.
L'articolo è disponibile su arXiv con ID 2605.19592.

Dual-Window Smoothing per il Chunking Implicito delle Azioni nel Controllo Continuo

Fatti principali

Entità

Istituzioni

Fonti