R2R2: Riduzione della Ridondanza per un SPL Robusto nell'Apprendimento per Rinforzo

other · 2026-05-16

Un nuovo metodo di regolarizzazione chiamato R2R2 (Rappresentazione Robusta tramite Riduzione della Ridondanza) affronta l'overfitting nell'Apprendimento Auto-Predittivo (SPL) per l'apprendimento per rinforzo in condizioni di elevati rapporti Aggiornamento-Dati (UTD). Il metodo è teoricamente fondato e corregge un conflitto tra la centratura standard e le proprietà spettrali dello SPL attraverso un obiettivo non centrato. R2R2 è verificato su algoritmi nativi SPL come TD7 ed esteso a SimbaV2, creando SimbaV2-SPL. Esperimenti su 11 compiti di controllo continuo mostrano che R2R2 mitiga efficacemente l'overfitting, in particolare a tassi UTD elevati.

Fatti principali

R2R2 è un metodo di regolarizzazione per l'Apprendimento Auto-Predittivo (SPL) nell'apprendimento per rinforzo.
Mira all'instabilità a livello di rappresentazione in regimi di elevato rapporto Aggiornamento-Dati (UTD).
La centratura standard è in conflitto con le proprietà spettrali dello SPL; R2R2 utilizza un obiettivo non centrato.
R2R2 è verificato su algoritmi nativi SPL come TD7.
R2R2 è esteso a SimbaV2, creando SimbaV2-SPL.
Esperimenti su 11 compiti di controllo continuo confermano la mitigazione dell'overfitting.
Alti rapporti UTD inducono overfitting in domini con pochi dati, come la robotica nel mondo reale.
Il lavoro è pubblicato su arXiv con ID 2605.14026.

R2R2: Riduzione della Ridondanza per un SPL Robusto nell'Apprendimento per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti