ARTFEED — Contemporary Art Intelligence

RankQ: Un Nuovo Metodo RL Offline-to-Online che Utilizza il Ranking delle Azioni Auto-Supervisionato

other · 2026-05-13

Un nuovo algoritmo di reinforcement learning (RL) offline-to-online chiamato RankQ è stato introdotto dai ricercatori per affrontare il problema della sovrastima del valore in ambienti con ampi spazi stato-azione. Invece di penalizzare uniformemente le azioni fuori distribuzione, RankQ si concentra sull'apprendimento delle preferenze relative tra le azioni. Migliorando l'apprendimento per differenza temporale con una perdita di ranking multi-termine auto-supervisionata, stabilisce un ordine strutturato per le azioni, che aiuta a perfezionare le politiche verso comportamenti più efficaci. Questa strategia evita l'effetto ancoraggio del behavior cloning presente negli approcci pessimistici precedenti che possono ostacolare i miglioramenti online quando le azioni del dataset non sono ottimali. I risultati sono disponibili su arXiv (2605.11151) e mirano a migliorare l'efficienza del campionamento utilizzando dataset pre-raccolti prima dell'interazione online.

Fatti principali

  • 1. RankQ è un algoritmo RL offline-to-online.
  • 2. Utilizza una perdita di ranking multi-termine auto-supervisionata.
  • 3. Il metodo potenzia l'apprendimento per differenza temporale.
  • 4. Impone un ordinamento strutturato delle azioni.
  • 5. Evita la penalizzazione uniforme delle azioni OOD.
  • 6. I metodi precedenti impongono pessimismo riducendo il peso delle azioni OOD.
  • 7. L'approccio mitiga la sovrastima del valore.
  • 8. L'articolo è su arXiv con ID 2605.11151.

Entità

Istituzioni

  • arXiv

Fonti