Algoritmo di Apprendimento per Rinforzo Sicuro Basato su Campionamento
Un team di ricercatori ha introdotto l'Apprendimento per Rinforzo Sicuro Basato su Campionamento (SBSRL), un algoritmo di apprendimento per rinforzo basato su modello progettato per mantenere vincoli di sicurezza entro un range limitato di campioni dinamici, facilitando l'esplorazione sicura in ambienti continui. Questo approccio stima gli scenari peggiori su dinamiche incerte e sfrutta l'incertezza epistemica per guidare l'esplorazione senza bisogno di ricompense esplicite. Il quadro teorico garantisce sicurezza ad alta probabilità durante il processo di apprendimento e stabilisce una complessità campionaria a tempo finito per il recupero di politiche quasi ottimali. Le valutazioni empiriche dimostrano un'esplorazione sia sicura che efficiente in simulazioni e su sistemi robotici reali.
Fatti principali
- SBSRL è un algoritmo di apprendimento per rinforzo basato su modello.
- Mantiene la sicurezza imponendo vincoli attraverso campioni dinamici.
- Il metodo approssima l'ottimizzazione del caso peggiore su dinamiche incerte.
- L'esplorazione è guidata vincolando l'incertezza epistemica.
- Garanzie di sicurezza ad alta probabilità sono derivate sotto condizioni di regolarità.
- Viene fornito un limite di complessità campionaria a tempo finito per il recupero di politiche quasi ottimali.
- La validazione empirica include simulazioni e hardware robotico reale.
- L'articolo è disponibile su arXiv con ID 2605.19469.
Entità
Istituzioni
- arXiv