ARTFEED — Contemporary Art Intelligence

Nuova ricerca presenta la teoria del commutamento diretto certificata da Lyapunov per il Q-learning

ai-technology · 2026-04-22

Un recente quadro teorico offre un'analisi del Q-learning, un algoritmo chiave nell'apprendimento per rinforzo, attraverso una rappresentazione di sistemi di commutamento stocastico diretto. Lo studio rivela che l'errore di massimizzazione di Bellman può essere rappresentato esattamente da una politica stocastica, portando a formulare l'errore del Q-learning come una ricorsione lineare condizionale-media commutata accompagnata da rumore a differenza di martingala. Il tasso di deriva intrinseco è identificato come il raggio spettrale congiunto della famiglia di commutamento diretto, che può essere inferiore al tasso standard di somma delle righe. Questa rappresentazione facilita la derivazione di un limite finito-temporale dell'iterazione finale utilizzando una funzione di Lyapunov indotta dal JSR, insieme a una versione computabile del certificato quadratico. Pubblicato su arXiv nella sezione Computer Science > Machine Learning, il documento, identificato come arXiv:2604.19569, migliora il quadro teorico dell'apprendimento per rinforzo fornendo nuovi strumenti analitici e limiti di prestazione. Inoltre, viene riconosciuto il framework arXivLabs per il supporto a progetti sperimentali collaborativi focalizzati sull'apertura e sulla privacy dei dati utente.

Fatti principali

  • Il Q-learning viene analizzato attraverso una rappresentazione di sistema di commutamento stocastico diretto
  • L'errore di massimizzazione di Bellman può essere rappresentato esattamente da una politica stocastica
  • L'errore del Q-learning ammette una ricorsione lineare condizionale-media commutata con rumore a differenza di martingala
  • Il tasso di deriva intrinseco è il raggio spettrale congiunto della famiglia di commutamento diretto
  • Il raggio spettrale congiunto può essere strettamente minore del tasso standard di somma delle righe
  • Limite finito-temporale dell'iterazione finale derivato tramite funzione di Lyapunov indotta dal JSR
  • Fornita versione computabile del certificato quadratico
  • Ricerca pubblicata su arXiv nella sezione Computer Science > Machine Learning

Entità

Istituzioni

  • arXiv
  • arXivLabs

Fonti