SPAR: Rettifica dell'Azione che Preserva il Supporto per il Miglioramento delle Politiche Offline
Un nuovo framework chiamato Support-Preserving Action Rectification (SPAR) è stato introdotto dai ricercatori per migliorare il miglioramento delle politiche offline, affrontando la sfida di bilanciare la massimizzazione del valore con l'allineamento della distribuzione dei dati. SPAR reinterpreta l'apprendimento globale come rettifica residua locale, basandosi su una politica statica di behavior cloning. Questo approccio consente un adattamento preciso e un miglioramento locale della politica nello spazio residuo, restringendo così l'area di ricerca. Inoltre, il framework presenta Latent Self-Imitation, un meccanismo che utilizza la regressione pesata con campionamento latente per risolvere il conflitto tra i gradienti di adattamento e miglioramento. Il fondamento teorico di questo meccanismo risolve il dilemma adattamento-ottimizzazione. Lo studio è disponibile su arXiv con l'identificatore 2605.27877.
Fatti principali
- 1. SPAR sta per Support-Preserving Action Rectification.
- 2. Affronta il conflitto nel miglioramento delle politiche offline tra massimizzazione del valore e adattamento alla distribuzione dei dati.
- 3. La regressione pesata in-sample soffre di eccessivo conservatorismo che sopprime le azioni ad alto valore.
- 4. Gli approcci basati sul gradiente mostrano un conflitto tra gradienti di adattamento e ottimizzazione.
- 5. SPAR riformula l'apprendimento globale come rettifica residua locale ancorata a una politica di behavior cloning congelata.
- 6. Esegue un adattamento fine e un miglioramento locale della politica nello spazio residuo.
- 7. Latent Self-Imitation utilizza la regressione pesata con campionamento latente per risolvere il conflitto dei gradienti.
- 8. L'articolo è su arXiv con ID 2605.27877.
Entità
Istituzioni
- arXiv