Il Ridimensionamento Adattivo dei Batch Migliora l'Efficienza dell'Apprendimento per Rinforzo
Un nuovo articolo su arXiv sfida la convinzione comune che l'addestramento con batch di grandi dimensioni sia incompatibile con l'Apprendimento per Rinforzo (RL). Gli autori osservano che la non-stazionarietà nell'RL evolve durante l'addestramento: le fasi iniziali richiedono batch piccoli per la plasticità, mentre le fasi finali beneficiano di batch grandi per la convergenza. Propongono il Ridimensionamento Adattivo dei Batch (ABS), che regola dinamicamente la dimensione del batch in base alla stabilità della politica utilizzando una nuova metrica chiamata Divergenza Comportamentale. Questa metrica quantifica i cambiamenti a livello di azione tra aggiornamenti consecutivi. L'approccio mira a migliorare la scalabilità e le prestazioni nell'RL on-policy.
Fatti principali
- L'articolo sfida l'incompatibilità dell'addestramento con batch grandi con l'RL
- La non-stazionarietà evolve durante l'addestramento
- Le fasi iniziali necessitano di batch piccoli
- Le fasi finali beneficiano di batch grandi
- Propone il Ridimensionamento Adattivo dei Batch (ABS)
- ABS utilizza la metrica Divergenza Comportamentale
- La Divergenza Comportamentale misura i cambiamenti a livello di azione
- Mira a migliorare la scalabilità e le prestazioni dell'RL
Entità
Istituzioni
- arXiv