I Modelli a Orizzonte Universale Migliorano l'Apprendimento per Rinforzo Offline
Un nuovo articolo su arXiv introduce i modelli a orizzonte universale (UHM), una generalizzazione dei modelli a orizzonte geometrico (GHM) per l'apprendimento per rinforzo offline. UHM predice direttamente stati futuri sotto orizzonti arbitrari, affrontando gli errori cumulativi derivanti dall'inferenza ripetuta del modello. Il metodo di apprendimento del valore proposto utilizza una distribuzione dell'orizzonte winsorizzata per stabilizzare l'addestramento. Esperimenti su 100 compiti OGBench mostrano che UHM supera le baseline, specialmente in compiti con dati altamente subottimali.
Fatti principali
- arXiv:2605.15603v1 introduce i modelli a orizzonte universale (UHM).
- UHM generalizza i modelli a orizzonte geometrico (GHM) per l'RL offline.
- UHM predice stati futuri sotto orizzonti arbitrari.
- Il metodo utilizza una distribuzione dell'orizzonte winsorizzata per stabilizzare l'addestramento.
- Esperimenti condotti su 100 compiti OGBench.
- UHM supera le baseline competitive.
- Particolarmente efficace in compiti con dati altamente subottimali.
- L'RL basato su modelli soffre di errori cumulativi dovuti all'inferenza ripetuta del modello.
Entità
Istituzioni
- arXiv