RankQ: Un Nuovo Metodo RL Offline-to-Online che Utilizza il Ranking delle Azioni Auto-Supervisionato

other · 2026-05-13

Un nuovo algoritmo di reinforcement learning (RL) offline-to-online chiamato RankQ è stato introdotto dai ricercatori per affrontare il problema della sovrastima del valore in ambienti con ampi spazi stato-azione. Invece di penalizzare uniformemente le azioni fuori distribuzione, RankQ si concentra sull'apprendimento delle preferenze relative tra le azioni. Migliorando l'apprendimento per differenza temporale con una perdita di ranking multi-termine auto-supervisionata, stabilisce un ordine strutturato per le azioni, che aiuta a perfezionare le politiche verso comportamenti più efficaci. Questa strategia evita l'effetto ancoraggio del behavior cloning presente negli approcci pessimistici precedenti che possono ostacolare i miglioramenti online quando le azioni del dataset non sono ottimali. I risultati sono disponibili su arXiv (2605.11151) e mirano a migliorare l'efficienza del campionamento utilizzando dataset pre-raccolti prima dell'interazione online.

Fatti principali

1. RankQ è un algoritmo RL offline-to-online.
2. Utilizza una perdita di ranking multi-termine auto-supervisionata.
3. Il metodo potenzia l'apprendimento per differenza temporale.
4. Impone un ordinamento strutturato delle azioni.
5. Evita la penalizzazione uniforme delle azioni OOD.
6. I metodi precedenti impongono pessimismo riducendo il peso delle azioni OOD.
7. L'approccio mitiga la sovrastima del valore.
8. L'articolo è su arXiv con ID 2605.11151.

RankQ: Un Nuovo Metodo RL Offline-to-Online che Utilizza il Ranking delle Azioni Auto-Supervisionato

Fatti principali

Entità

Istituzioni

Fonti