Sintesi POMDP Sonora con Obiettivi LTL tramite Reward Shaping

ai-technology · 2026-05-18

Un articolo di ricerca su arXiv (2605.12581) introduce un nuovo meccanismo di reward shaping per la sintesi di agenti autonomi in processi decisionali di Markov parzialmente osservabili (POMDP) con obiettivi di Logica Temporale Lineare (LTL). L'approccio genera dinamicamente ricompense dipendenti dalla credenza, basate sulla soddisfazione certificata di LTL, integrate in un framework potenziato di Monte Carlo Planning. Gli esperimenti mostrano che funziona dove i metodi esistenti falliscono, affrontando l'indecidibilità della verifica qualitativa LTL nei POMDP.

Fatti principali

Articolo arXiv 2605.12581
Titolo: Garantire la Logica nella Nebbia: Sintesi POMDP Sonora con Obiettivi LTL
Affronta la sintesi di agenti autonomi in condizioni di incertezza con vincoli LTL
Propone un meccanismo di reward shaping sonoro per POMDP
Le ricompense sono dipendenti dalla credenza e basate sulla soddisfazione certificata di LTL
Integrato in un framework potenziato di Monte Carlo Planning
Gli esperimenti dimostrano il successo in scenari in cui i metodi esistenti falliscono
Colma il divario tra specifica LTL e sintesi quantitativa nei POMDP

Sintesi POMDP Sonora con Obiettivi LTL tramite Reward Shaping

Fatti principali

Entità

Istituzioni

Fonti