LoRA Migliora i Critici dell'Apprendimento per Rinforzo Off-Policy tramite Adattamento a Basso Rango
Uno studio recente ha rivelato l'Adattamento a Basso Rango (LoRA) come metodo per la regolarizzazione strutturale della sparsità nei critici dell'apprendimento per rinforzo off-policy. Questo approccio affronta i problemi associati ai critici più grandi, che spesso soffrono di overfitting e instabilità nell'addestramento bootstrap basato su replay buffer. Ottimizzando solo adattatori a basso rango mentre si mantengono fisse le matrici base inizializzate casualmente, gli aggiornamenti al critico sono limitati a un sottospazio a bassa dimensionalità. I ricercatori, basandosi su SimbaV2, hanno formulato LoRA per mantenere la geometria di normalizzazione ipersferica di SimbaV2 durante l'addestramento con backbone congelato. Le valutazioni utilizzando gli algoritmi SAC e FastTD3 su benchmark come la locomozione DeepMind Control e la robotica IsaacLab hanno dimostrato costantemente una riduzione della perdita del critico e un miglioramento delle prestazioni della policy con LoRA. I risultati sono stati pubblicati su arXiv con l'identificatore arXiv:2604.18978v1.
Fatti principali
- LoRA funge da regolarizzatore strutturale della sparsità per i critici RL off-policy
- I critici più grandi sono inclini a overfitting e instabilità nell'addestramento bootstrap
- Il metodo congela le matrici base e ottimizza solo gli adattatori a basso rango
- Vincola gli aggiornamenti del critico a un sottospazio a bassa dimensionalità
- Basato su SimbaV2 con formulazione compatibile che preserva la geometria di normalizzazione
- Valutato con SAC e FastTD3 sui benchmark DeepMind Control e IsaacLab
- Ottiene costantemente una minore perdita del critico e prestazioni della policy più forti
- Fornisce un approccio semplice e scalabile per aumentare la capacità del critico
Entità
Istituzioni
- arXiv
- DeepMind
- IsaacLab