ARTFEED — Contemporary Art Intelligence

Dual-Window Smoothing per il Chunking Implicito delle Azioni nel Controllo Continuo

other · 2026-05-20

Un nuovo framework di reinforcement learning, denominato Dual-Window Smoothing (DWS), affronta il problema dei segnali di controllo oscillatori ad alta frequenza che minacciano la sicurezza e la stabilità nelle applicazioni reali. A differenza dei metodi tradizionali di action chunking, che prevedono traiettorie a orizzonte fisso e aumentano la dimensione dell'output della politica con la lunghezza dell'orizzonte—causando sfide di ottimizzazione e problemi di interazione passo-passo—DWS mantiene la coerenza temporale senza ampliare lo spazio delle azioni. Presenta un approccio a doppia finestra: la finestra di esecuzione garantisce la scorrevolezza fisica tramite modulazione deterministica, mentre la finestra di valore sincronizza i target temporal-difference lungo l'orizzonte per mitigare il bias del critico dovuto all'esecuzione a ciclo aperto. Inoltre, DWS incorpora un meccanismo temporale leggero sul lato attore. Questa ricerca è documentata in un articolo disponibile su arXiv con ID 2605.19592.

Fatti principali

  • Dual-Window Smoothing (DWS) è proposto per un controllo continuo fluido nel reinforcement learning.
  • L'action chunking esplicito prevede traiettorie a orizzonte fisso ma scala la dimensione dell'output della politica con la lunghezza dell'orizzonte.
  • DWS utilizza una finestra di esecuzione per la scorrevolezza fisica tramite modulazione deterministica.
  • DWS utilizza una finestra di valore per allineare i target temporal-difference lungo l'orizzonte.
  • DWS corregge il bias del critico causato dall'esecuzione a ciclo aperto.
  • DWS include un meccanismo temporale leggero sul lato attore.
  • L'articolo è disponibile su arXiv con ID 2605.19592.

Entità

Istituzioni

  • arXiv

Fonti