Teoria della Memoria Ricorrente Lineare per l'Apprendimento per Rinforzo
Un articolo teorico su arXiv (2605.31261) spiega perché le reti neurali ricorrenti lineari funzionano bene come unità di memoria nell'apprendimento per rinforzo parzialmente osservabile. Gli autori costruiscono due filtri lineari: il primo riproduce i logit del vettore di credenza nei modelli di Markov nascosti (HMM) con transizioni deterministiche, fungendo da statistica sufficiente per l'apprendimento della politica ottimale; il secondo raggiunge un errore di decodifica dello stato trascurabile sotto transizioni quasi deterministiche. I risultati si estendono a HMM controllati da azioni con dinamiche variabili nel tempo. Esperimenti numerici confermano l'efficacia dei filtri come estrattori di caratteristiche.
Fatti principali
- Articolo su arXiv: 2605.31261
- Studia le reti neurali ricorrenti lineari nell'apprendimento per rinforzo
- Costruisce due filtri lineari per HMM
- Il primo filtro riproduce i logit del vettore di credenza sotto transizioni deterministiche
- Il secondo filtro riduce l'errore di decodifica dello stato sotto transizioni quasi deterministiche
- I risultati si estendono a HMM controllati da azioni
- Esperimenti numerici convalidano i risultati
- I filtri fungono da potenti estrattori di caratteristiche
Entità
Istituzioni
- arXiv