LoRA Migliora i Critici dell'Apprendimento per Rinforzo Off-Policy tramite Adattamento a Basso Rango

ai-technology · 2026-04-22

Uno studio recente ha rivelato l'Adattamento a Basso Rango (LoRA) come metodo per la regolarizzazione strutturale della sparsità nei critici dell'apprendimento per rinforzo off-policy. Questo approccio affronta i problemi associati ai critici più grandi, che spesso soffrono di overfitting e instabilità nell'addestramento bootstrap basato su replay buffer. Ottimizzando solo adattatori a basso rango mentre si mantengono fisse le matrici base inizializzate casualmente, gli aggiornamenti al critico sono limitati a un sottospazio a bassa dimensionalità. I ricercatori, basandosi su SimbaV2, hanno formulato LoRA per mantenere la geometria di normalizzazione ipersferica di SimbaV2 durante l'addestramento con backbone congelato. Le valutazioni utilizzando gli algoritmi SAC e FastTD3 su benchmark come la locomozione DeepMind Control e la robotica IsaacLab hanno dimostrato costantemente una riduzione della perdita del critico e un miglioramento delle prestazioni della policy con LoRA. I risultati sono stati pubblicati su arXiv con l'identificatore arXiv:2604.18978v1.

Fatti principali

LoRA funge da regolarizzatore strutturale della sparsità per i critici RL off-policy
I critici più grandi sono inclini a overfitting e instabilità nell'addestramento bootstrap
Il metodo congela le matrici base e ottimizza solo gli adattatori a basso rango
Vincola gli aggiornamenti del critico a un sottospazio a bassa dimensionalità
Basato su SimbaV2 con formulazione compatibile che preserva la geometria di normalizzazione
Valutato con SAC e FastTD3 sui benchmark DeepMind Control e IsaacLab
Ottiene costantemente una minore perdita del critico e prestazioni della policy più forti
Fornisce un approccio semplice e scalabile per aumentare la capacità del critico

LoRA Migliora i Critici dell'Apprendimento per Rinforzo Off-Policy tramite Adattamento a Basso Rango

Fatti principali

Entità

Istituzioni

Fonti