R2R2: Riduzione della Ridondanza per un SPL Robusto nell'Apprendimento per Rinforzo
Un nuovo metodo di regolarizzazione chiamato R2R2 (Rappresentazione Robusta tramite Riduzione della Ridondanza) affronta l'overfitting nell'Apprendimento Auto-Predittivo (SPL) per l'apprendimento per rinforzo in condizioni di elevati rapporti Aggiornamento-Dati (UTD). Il metodo è teoricamente fondato e corregge un conflitto tra la centratura standard e le proprietà spettrali dello SPL attraverso un obiettivo non centrato. R2R2 è verificato su algoritmi nativi SPL come TD7 ed esteso a SimbaV2, creando SimbaV2-SPL. Esperimenti su 11 compiti di controllo continuo mostrano che R2R2 mitiga efficacemente l'overfitting, in particolare a tassi UTD elevati.
Fatti principali
- R2R2 è un metodo di regolarizzazione per l'Apprendimento Auto-Predittivo (SPL) nell'apprendimento per rinforzo.
- Mira all'instabilità a livello di rappresentazione in regimi di elevato rapporto Aggiornamento-Dati (UTD).
- La centratura standard è in conflitto con le proprietà spettrali dello SPL; R2R2 utilizza un obiettivo non centrato.
- R2R2 è verificato su algoritmi nativi SPL come TD7.
- R2R2 è esteso a SimbaV2, creando SimbaV2-SPL.
- Esperimenti su 11 compiti di controllo continuo confermano la mitigazione dell'overfitting.
- Alti rapporti UTD inducono overfitting in domini con pochi dati, come la robotica nel mondo reale.
- Il lavoro è pubblicato su arXiv con ID 2605.14026.
Entità
Istituzioni
- arXiv