Sintesi POMDP Sonora con Obiettivi LTL tramite Reward Shaping
Un articolo di ricerca su arXiv (2605.12581) introduce un nuovo meccanismo di reward shaping per la sintesi di agenti autonomi in processi decisionali di Markov parzialmente osservabili (POMDP) con obiettivi di Logica Temporale Lineare (LTL). L'approccio genera dinamicamente ricompense dipendenti dalla credenza, basate sulla soddisfazione certificata di LTL, integrate in un framework potenziato di Monte Carlo Planning. Gli esperimenti mostrano che funziona dove i metodi esistenti falliscono, affrontando l'indecidibilità della verifica qualitativa LTL nei POMDP.
Fatti principali
- Articolo arXiv 2605.12581
- Titolo: Garantire la Logica nella Nebbia: Sintesi POMDP Sonora con Obiettivi LTL
- Affronta la sintesi di agenti autonomi in condizioni di incertezza con vincoli LTL
- Propone un meccanismo di reward shaping sonoro per POMDP
- Le ricompense sono dipendenti dalla credenza e basate sulla soddisfazione certificata di LTL
- Integrato in un framework potenziato di Monte Carlo Planning
- Gli esperimenti dimostrano il successo in scenari in cui i metodi esistenti falliscono
- Colma il divario tra specifica LTL e sintesi quantitativa nei POMDP
Entità
Istituzioni
- arXiv