QuantFPFlow: Accelerazione Quantistica per l'Apprendimento per Rinforzo Continuo
QuantFPFlow rappresenta un framework di apprendimento per rinforzo che incorpora la stima di ampiezza quantistica nell'approccio di Fokker-Planck per l'ottimizzazione stocastica delle politiche. Mentre gli agenti RL tradizionali in spazio continuo determinano la funzione di partizione di FP con un costo di O(1/ε²), QuantFPFlow realizza un costo di O(1/ε) attraverso la stima di ampiezza amplificata da Grover, fornendo un miglioramento quadratico dimostrabile in velocità. La simulazione classica ispirata ai principi quantistici mostra già il framework algoritmico O(1/ε). La distribuzione stazionaria stimata genera un bonus di esplorazione teoricamente valido, guidando l'agente verso le aree globalmente ottimali all'interno di paesaggi di ricompensa multimodali.
Fatti principali
- QuantFPFlow integra la stima di ampiezza quantistica nell'ottimizzazione delle politiche di Fokker-Planck.
- Il costo classico è O(1/ε²); QuantFPFlow raggiunge O(1/ε).
- L'accelerazione quantistica completa richiede hardware fault-tolerant.
- La simulazione classica ispirata al quantistico mostra la struttura O(1/ε).
- Il bonus di esplorazione utilizza la distribuzione stazionaria stimata.
- Il framework guida gli agenti verso gli ottimi globali in paesaggi di ricompensa multimodali.
- Pubblicato su arXiv con ID 2605.16429.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv