Teoria della Memoria Ricorrente Lineare per l'Apprendimento per Rinforzo

other · 2026-06-01

Un articolo teorico su arXiv (2605.31261) spiega perché le reti neurali ricorrenti lineari funzionano bene come unità di memoria nell'apprendimento per rinforzo parzialmente osservabile. Gli autori costruiscono due filtri lineari: il primo riproduce i logit del vettore di credenza nei modelli di Markov nascosti (HMM) con transizioni deterministiche, fungendo da statistica sufficiente per l'apprendimento della politica ottimale; il secondo raggiunge un errore di decodifica dello stato trascurabile sotto transizioni quasi deterministiche. I risultati si estendono a HMM controllati da azioni con dinamiche variabili nel tempo. Esperimenti numerici confermano l'efficacia dei filtri come estrattori di caratteristiche.

Fatti principali

Articolo su arXiv: 2605.31261
Studia le reti neurali ricorrenti lineari nell'apprendimento per rinforzo
Costruisce due filtri lineari per HMM
Il primo filtro riproduce i logit del vettore di credenza sotto transizioni deterministiche
Il secondo filtro riduce l'errore di decodifica dello stato sotto transizioni quasi deterministiche
I risultati si estendono a HMM controllati da azioni
Esperimenti numerici convalidano i risultati
I filtri fungono da potenti estrattori di caratteristiche

Teoria della Memoria Ricorrente Lineare per l'Apprendimento per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti