Algoritmo DR.Q per il controllo continuo efficiente in termini di campioni

other · 2026-05-13

Un nuovo algoritmo chiamato Debiased model-based Representations for Q-learning (DR.Q) è stato proposto per migliorare l'efficienza dei campioni nei compiti di controllo continuo. Il metodo affronta i bias negli approcci di rappresentazione basati su modelli esistenti, che spesso non riescono a catturare informazioni sufficienti sulle variabili rilevanti e si adattano eccessivamente alle prime esperienze nel buffer di replay. DR.Q massimizza esplicitamente l'informazione mutua tra le rappresentazioni delle coppie stato-azione correnti e lo stato successivo, minimizzando al contempo le loro deviazioni. Campiona anche le transizioni utilizzando esperienze prioritarie attenuate. L'approccio combina i vantaggi dei metodi model-free e model-based senza i costi di addestramento dei metodi basati su modelli.

Fatti principali

DR.Q sta per Debiased model-based Representations for Q-learning
L'algoritmo massimizza l'informazione mutua tra le rappresentazioni dello stato-azione corrente e dello stato successivo
Minimizza le deviazioni tra le rappresentazioni
Utilizza il replay di esperienze prioritarie attenuate
Le rappresentazioni basate su modelli esistenti possono non catturare informazioni sufficienti
I metodi esistenti possono adattarsi eccessivamente alle prime esperienze
DR.Q evita i costi di addestramento dei metodi basati su modelli
L'approccio è progettato per compiti di controllo continuo

Algoritmo DR.Q per il controllo continuo efficiente in termini di campioni

Fatti principali

Entità

Istituzioni

Fonti