Quadro di Verifica Probabilistica per Politiche RNN nell'Apprendimento per Rinforzo
I ricercatori propongono RNN-ProVe, un quadro probabilistico per verificare le politiche delle reti neurali ricorrenti nell'apprendimento per rinforzo parzialmente osservabile. Il metodo stima la probabilità di comportamenti indesiderati utilizzando un campionamento guidato dalla politica per approssimare gli stati nascosti fattibili, derivando limiti di errore statistici per stime ad alta confidenza. Esperimenti su compiti a singolo agente e multi-agente cooperativo ne dimostrano l'efficacia. Il lavoro affronta le sfide nella verifica di politiche dipendenti dalla storia che si basano su dinamiche latenti degli stati nascosti, dove gli strumenti esistenti spesso si basano su assunzioni restrittive o approssimazioni grossolane.
Fatti principali
- Quadro proposto: RNN-ProVe (Verifica Probabilistica di RNN)
- Stima la probabilità di comportamenti indesiderati in politiche basate su RNN
- Utilizza campionamento guidato dalla politica per approssimare stati nascosti fattibili
- Deriva limiti di errore statistici per stime a errore limitato e alta confidenza
- Applicato a compiti parzialmente osservabili a singolo agente e multi-agente cooperativo
- Affronta le limitazioni degli strumenti di verifica RNN esistenti
- Pubblicato su arXiv con ID 2605.14758
- Si concentra su politiche dipendenti dalla storia indotte da reti neurali ricorrenti
Entità
Istituzioni
- arXiv