Apprendimento per Rinforzo Sicuro tramite Funzioni di Barriera di Controllo con Incertezza del Modello
Un nuovo quadro per l'apprendimento per rinforzo sicuro impiega perturbazioni di azione basate sulla teoria del controllo per mantenere la sicurezza in sistemi complessi con dinamiche incerte. Inizialmente, sviluppa un modello probabilistico di dinamiche affini al controllo in un contesto offline, creando successivamente funzioni di barriera di controllo (CBF) che tengono conto dell'incertezza del modello per stabilire vincoli di sicurezza conservativi. Questi vincoli vengono implementati tramite un meccanismo di correzione dell'azione online, facilitando l'esplorazione sicura e minimizzando le limitazioni prestazionali. Questo metodo supera le carenze delle attuali tecniche di RL sicuro che offrono garanzie di sicurezza solo in aspettativa, nonché dei metodi basati sulla teoria del controllo che dipendono da dinamiche note o da una stima accurata del modello. Test empirici convalidano l'efficacia di questo quadro.
Fatti principali
- Propone un quadro di RL sicuro che utilizza perturbazioni di azione basate sulla teoria del controllo
- Apprende un modello probabilistico di dinamiche affini al controllo offline
- Costruisce funzioni di barriera di controllo (CBF) che incorporano l'incertezza del modello
- Applica i vincoli CBF tramite correzione dell'azione online
- Consente un'esplorazione sicura senza limitare eccessivamente le prestazioni del compito
- Affronta le limitazioni dei metodi di RL sicuro basati sull'aspettativa
- Non richiede dinamiche note o una stima accurata del modello
- Valutazioni empiriche mostrano l'efficacia
Entità
—