L'iterazione del Q-valore raggiunge la politica ottimale in tempo finito tramite geometria

other · 2026-05-07

Uno studio recente sull'iterazione del Q-valore scontato (Q-VI) indica che l'algoritmo raggiunge una politica greedy ottimale in un arco di tempo finito, anziché avvicinarsi solo asintoticamente. Questa ricerca presenta la nozione di insieme di soluzioni praticamente ottimali (POSS), costituito da funzioni Q che producono politiche greedy ottimali con pareggio risolto. Il risultato chiave dimostra che Q-VI si stabilizza all'interno di un tubo invariante attorno allo spazio affine X1 = Q* + span(1), situato nel POSS, dopo un numero limitato di iterazioni. Per ogni epsilon > 0, la distanza da X1 diminuisce esponenzialmente a un tasso di (rho_bar + epsilon)^k, dove rho_bar si riferisce al raggio spettrale congiunto della famiglia di commutazione proiettata in direzioni perpendicolari a X1. Quando rho_bar < gamma, questa convergenza supera il tipico limite di contrazione gamma. La ricerca reinterpreta Q-VI come un sistema di commutazione, offrendo una prospettiva geometrica sull'identificazione delle politiche. Il documento è disponibile su arXiv con ID 2604.17457.

Fatti principali

L'iterazione del Q-valore è analizzata come un sistema di commutazione.
L'insieme di soluzioni praticamente ottimali (POSS) è definito come funzioni Q con politiche greedy ottimali con pareggio risolto.
Q-VI raggiunge la classe di azione ottimale in tempo finito.
La convergenza avviene entrando in un tubo invariante attorno a X1 = Q* + span(1).
La distanza da X1 decade esponenzialmente con tasso (rho_bar + epsilon)^k.
rho_bar è il raggio spettrale congiunto della famiglia di commutazione proiettata.
Quando rho_bar < gamma, la convergenza trasversale è più veloce della contrazione gamma.
Il documento è su arXiv con ID 2604.17457.

L'iterazione del Q-valore raggiunge la politica ottimale in tempo finito tramite geometria

Fatti principali

Entità

Istituzioni

Fonti