RankQ: Un Nuovo Metodo RL Offline-to-Online che Utilizza il Ranking delle Azioni Auto-Supervisionato
Un nuovo algoritmo di reinforcement learning (RL) offline-to-online chiamato RankQ è stato introdotto dai ricercatori per affrontare il problema della sovrastima del valore in ambienti con ampi spazi stato-azione. Invece di penalizzare uniformemente le azioni fuori distribuzione, RankQ si concentra sull'apprendimento delle preferenze relative tra le azioni. Migliorando l'apprendimento per differenza temporale con una perdita di ranking multi-termine auto-supervisionata, stabilisce un ordine strutturato per le azioni, che aiuta a perfezionare le politiche verso comportamenti più efficaci. Questa strategia evita l'effetto ancoraggio del behavior cloning presente negli approcci pessimistici precedenti che possono ostacolare i miglioramenti online quando le azioni del dataset non sono ottimali. I risultati sono disponibili su arXiv (2605.11151) e mirano a migliorare l'efficienza del campionamento utilizzando dataset pre-raccolti prima dell'interazione online.
Fatti principali
- 1. RankQ è un algoritmo RL offline-to-online.
- 2. Utilizza una perdita di ranking multi-termine auto-supervisionata.
- 3. Il metodo potenzia l'apprendimento per differenza temporale.
- 4. Impone un ordinamento strutturato delle azioni.
- 5. Evita la penalizzazione uniforme delle azioni OOD.
- 6. I metodi precedenti impongono pessimismo riducendo il peso delle azioni OOD.
- 7. L'approccio mitiga la sovrastima del valore.
- 8. L'articolo è su arXiv con ID 2605.11151.
Entità
Istituzioni
- arXiv