Il Dropout Casuale di Transizioni Stabilizza l'Addestramento PPO
Uno studio recente pubblicato su arXiv (2605.24071) indica che le transizioni consecutive nell'apprendimento per rinforzo on-policy contengono informazioni ridondanti a causa dell'incatenamento causale, il che comporta segnali di gradiente ripetitivi e processi di addestramento instabili. Per affrontare questo problema, gli autori suggeriscono di omettere casualmente una percentuale specifica di transizioni durante il rollout al momento opportuno, mantenendo così il segnale di ricompensa mentre si interrompe lo schema di gradiente ripetitivo. Questo approccio semplice migliora la stabilità dell'addestramento senza la necessità di modifiche complesse.
Fatti principali
- Le transizioni consecutive nell'RL on-policy sono causalmente dipendenti e portano informazioni sovrapposte.
- Questa ridondanza causa segnali di gradiente ripetitivi e addestramento instabile.
- L'articolo propone di eliminare casualmente una frazione fissa di transizioni dal rollout.
- Il metodo preserva il segnale di ricompensa eliminando nella fase giusta.
- Rompe la struttura di gradiente ripetitiva e stabilizza l'addestramento.
- L'articolo è disponibile su arXiv con ID 2605.24071.
- L'approccio è semplice e non richiede modifiche complesse.
- Il problema è nascosto e non rivelato solo dalle curve di ricompensa.
Entità
Istituzioni
- arXiv