ARTFEED — Contemporary Art Intelligence

Algoritmo DR.Q per il controllo continuo efficiente in termini di campioni

other · 2026-05-13

Un nuovo algoritmo chiamato Debiased model-based Representations for Q-learning (DR.Q) è stato proposto per migliorare l'efficienza dei campioni nei compiti di controllo continuo. Il metodo affronta i bias negli approcci di rappresentazione basati su modelli esistenti, che spesso non riescono a catturare informazioni sufficienti sulle variabili rilevanti e si adattano eccessivamente alle prime esperienze nel buffer di replay. DR.Q massimizza esplicitamente l'informazione mutua tra le rappresentazioni delle coppie stato-azione correnti e lo stato successivo, minimizzando al contempo le loro deviazioni. Campiona anche le transizioni utilizzando esperienze prioritarie attenuate. L'approccio combina i vantaggi dei metodi model-free e model-based senza i costi di addestramento dei metodi basati su modelli.

Fatti principali

  • DR.Q sta per Debiased model-based Representations for Q-learning
  • L'algoritmo massimizza l'informazione mutua tra le rappresentazioni dello stato-azione corrente e dello stato successivo
  • Minimizza le deviazioni tra le rappresentazioni
  • Utilizza il replay di esperienze prioritarie attenuate
  • Le rappresentazioni basate su modelli esistenti possono non catturare informazioni sufficienti
  • I metodi esistenti possono adattarsi eccessivamente alle prime esperienze
  • DR.Q evita i costi di addestramento dei metodi basati su modelli
  • L'approccio è progettato per compiti di controllo continuo

Entità

Istituzioni

  • arXiv

Fonti