Apprendimento per Rinforzo con Misure di Rischio Markoviane e Approssimazione Multipattern

other · 2026-05-04

Una nuova categoria di misure di rischio coerenti markoviane, denominate misure mini-batch, è stata proposta per problemi di decisione markoviani a orizzonte finito avversi al rischio. Inoltre, la ricerca introduce problemi avversi al rischio multipattern che estendono i sistemi lineari. Queste teorie sono utilizzate in un approccio Q-learning basato su caratteristiche con approssimazione del Q-factor multipattern, che raggiunge un bound di regret ad alta probabilità di O(H^2 N^H sqrt(K)), dove H rappresenta l'orizzonte, N indica la dimensione del mini-batch e K il numero di episodi. Inoltre, viene introdotta una variante efficiente della tecnica Q-learning, che ottimizza la fase di valutazione della politica. I risultati teorici sono illustrati attraverso uno scenario di assegnazione stocastica e una sfida multi-armed bandit a orizzonte breve.

Fatti principali

Introduce misure di rischio coerenti markoviane mini-batch.
Definisce problemi avversi al rischio multipattern che generalizzano i sistemi lineari.
Propone Q-learning basato su caratteristiche con approssimazione del Q-factor multipattern.
Dimostra il bound di regret O(H^2 N^H sqrt(K)).
Propone una versione economica del Q-learning che semplifica la valutazione della politica.
Illustrato su un problema di assegnazione stocastica.
Illustrato su un problema multi-armed bandit a orizzonte breve.
H è l'orizzonte, N è la dimensione del mini-batch, K è il numero di episodi.

Apprendimento per Rinforzo con Misure di Rischio Markoviane e Approssimazione Multipattern

Fatti principali

Entità

Istituzioni

Fonti