L'apprendimento Q a lungo orizzonte stabilizza l'RL off-policy tramite disuguaglianze n-step

ai-technology · 2026-05-09

Un nuovo approccio chiamato apprendimento Q a lungo orizzonte (LQL) è stato introdotto dai ricercatori per migliorare la stabilità dell'apprendimento per rinforzo off-policy basato sul valore, affrontando gli errori cumulativi derivanti dal bootstrap. LQL sfrutta un'importante osservazione sull'ottimalità: qualsiasi sequenza di azioni intraprese fornisce un limite inferiore al rendimento atteso della politica ottimale. Pertanto, prendere decisioni ottimali in anticipo non dovrebbe produrre risultati peggiori rispetto all'aderire ad azioni precedentemente osservate per alcuni passi prima di tornare al comportamento ottimale. L'innovazione principale consiste nel trasformare questa disuguaglianza in un metodo pratico di stabilizzazione per l'apprendimento Q attraverso un orizzonte n-step. Questa metodologia è illustrata in un articolo disponibile su arXiv (2605.05812).

Fatti principali

LQL affronta gli errori cumulativi nell'apprendimento Q derivanti dal bootstrap.
Si basa su una precedente osservazione di restringimento dell'ottimalità.
Il metodo utilizza disuguaglianze n-step per stabilizzare l'apprendimento.
L'articolo è disponibile su arXiv con ID 2605.05812.
LQL è progettato per l'apprendimento per rinforzo off-policy basato sul valore.

L'apprendimento Q a lungo orizzonte stabilizza l'RL off-policy tramite disuguaglianze n-step

Fatti principali

Entità

Istituzioni

Fonti