ARTFEED — Contemporary Art Intelligence

Teoria della Memoria Ricorrente Lineare per l'Apprendimento per Rinforzo

other · 2026-06-01

Un articolo teorico su arXiv (2605.31261) spiega perché le reti neurali ricorrenti lineari funzionano bene come unità di memoria nell'apprendimento per rinforzo parzialmente osservabile. Gli autori costruiscono due filtri lineari: il primo riproduce i logit del vettore di credenza nei modelli di Markov nascosti (HMM) con transizioni deterministiche, fungendo da statistica sufficiente per l'apprendimento della politica ottimale; il secondo raggiunge un errore di decodifica dello stato trascurabile sotto transizioni quasi deterministiche. I risultati si estendono a HMM controllati da azioni con dinamiche variabili nel tempo. Esperimenti numerici confermano l'efficacia dei filtri come estrattori di caratteristiche.

Fatti principali

  • Articolo su arXiv: 2605.31261
  • Studia le reti neurali ricorrenti lineari nell'apprendimento per rinforzo
  • Costruisce due filtri lineari per HMM
  • Il primo filtro riproduce i logit del vettore di credenza sotto transizioni deterministiche
  • Il secondo filtro riduce l'errore di decodifica dello stato sotto transizioni quasi deterministiche
  • I risultati si estendono a HMM controllati da azioni
  • Esperimenti numerici convalidano i risultati
  • I filtri fungono da potenti estrattori di caratteristiche

Entità

Istituzioni

  • arXiv

Fonti