Quadro di Verifica Probabilistica per Politiche RNN nell'Apprendimento per Rinforzo

ai-technology · 2026-05-16

I ricercatori propongono RNN-ProVe, un quadro probabilistico per verificare le politiche delle reti neurali ricorrenti nell'apprendimento per rinforzo parzialmente osservabile. Il metodo stima la probabilità di comportamenti indesiderati utilizzando un campionamento guidato dalla politica per approssimare gli stati nascosti fattibili, derivando limiti di errore statistici per stime ad alta confidenza. Esperimenti su compiti a singolo agente e multi-agente cooperativo ne dimostrano l'efficacia. Il lavoro affronta le sfide nella verifica di politiche dipendenti dalla storia che si basano su dinamiche latenti degli stati nascosti, dove gli strumenti esistenti spesso si basano su assunzioni restrittive o approssimazioni grossolane.

Fatti principali

Quadro proposto: RNN-ProVe (Verifica Probabilistica di RNN)
Stima la probabilità di comportamenti indesiderati in politiche basate su RNN
Utilizza campionamento guidato dalla politica per approssimare stati nascosti fattibili
Deriva limiti di errore statistici per stime a errore limitato e alta confidenza
Applicato a compiti parzialmente osservabili a singolo agente e multi-agente cooperativo
Affronta le limitazioni degli strumenti di verifica RNN esistenti
Pubblicato su arXiv con ID 2605.14758
Si concentra su politiche dipendenti dalla storia indotte da reti neurali ricorrenti

Quadro di Verifica Probabilistica per Politiche RNN nell'Apprendimento per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti