Algoritmo DR.Q per il controllo continuo efficiente in termini di campioni
Un nuovo algoritmo chiamato Debiased model-based Representations for Q-learning (DR.Q) è stato proposto per migliorare l'efficienza dei campioni nei compiti di controllo continuo. Il metodo affronta i bias negli approcci di rappresentazione basati su modelli esistenti, che spesso non riescono a catturare informazioni sufficienti sulle variabili rilevanti e si adattano eccessivamente alle prime esperienze nel buffer di replay. DR.Q massimizza esplicitamente l'informazione mutua tra le rappresentazioni delle coppie stato-azione correnti e lo stato successivo, minimizzando al contempo le loro deviazioni. Campiona anche le transizioni utilizzando esperienze prioritarie attenuate. L'approccio combina i vantaggi dei metodi model-free e model-based senza i costi di addestramento dei metodi basati su modelli.
Fatti principali
- DR.Q sta per Debiased model-based Representations for Q-learning
- L'algoritmo massimizza l'informazione mutua tra le rappresentazioni dello stato-azione corrente e dello stato successivo
- Minimizza le deviazioni tra le rappresentazioni
- Utilizza il replay di esperienze prioritarie attenuate
- Le rappresentazioni basate su modelli esistenti possono non catturare informazioni sufficienti
- I metodi esistenti possono adattarsi eccessivamente alle prime esperienze
- DR.Q evita i costi di addestramento dei metodi basati su modelli
- L'approccio è progettato per compiti di controllo continuo
Entità
Istituzioni
- arXiv