Il Ridimensionamento Adattivo dei Batch Migliora l'Efficienza dell'Apprendimento per Rinforzo

other · 2026-05-23

Un nuovo articolo su arXiv sfida la convinzione comune che l'addestramento con batch di grandi dimensioni sia incompatibile con l'Apprendimento per Rinforzo (RL). Gli autori osservano che la non-stazionarietà nell'RL evolve durante l'addestramento: le fasi iniziali richiedono batch piccoli per la plasticità, mentre le fasi finali beneficiano di batch grandi per la convergenza. Propongono il Ridimensionamento Adattivo dei Batch (ABS), che regola dinamicamente la dimensione del batch in base alla stabilità della politica utilizzando una nuova metrica chiamata Divergenza Comportamentale. Questa metrica quantifica i cambiamenti a livello di azione tra aggiornamenti consecutivi. L'approccio mira a migliorare la scalabilità e le prestazioni nell'RL on-policy.

Fatti principali

L'articolo sfida l'incompatibilità dell'addestramento con batch grandi con l'RL
La non-stazionarietà evolve durante l'addestramento
Le fasi iniziali necessitano di batch piccoli
Le fasi finali beneficiano di batch grandi
Propone il Ridimensionamento Adattivo dei Batch (ABS)
ABS utilizza la metrica Divergenza Comportamentale
La Divergenza Comportamentale misura i cambiamenti a livello di azione
Mira a migliorare la scalabilità e le prestazioni dell'RL

Il Ridimensionamento Adattivo dei Batch Migliora l'Efficienza dell'Apprendimento per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti