Funzioni valore di logica temporale per politiche ottimali e filtri di sicurezza
Un recente articolo su arXiv (2605.01051) esamina le funzioni valore relative a specifiche di logica temporale (TL) in scenari a orizzonte infinito senza sconto. I ricercatori evidenziano un problema in cui la massimizzazione greedy delle funzioni Q può portare a politiche che rimandano indefinitamente il completamento dei compiti in situazioni di raggiungimento-evitamento (specifiche Until), anche quando si utilizzano funzioni valore ottimali. Si basano su recenti scoperte che scompongono le funzioni valore TL in un grafo di funzioni valore individuali, creando politiche non markoviane che si basano sulla storia dello stato per aggirare questo problema. Stabiliscono inoltre l'ottimalità per specifiche Until nidificate, Globally e Globally-Until utilizzando una metrica di robustezza quantitativa. Inoltre, mostrano che la funzione Q può fungere da filtro di sicurezza per specifiche TL complesse, ampliando risultati precedenti oltre i compiti di evitamento di base. L'articolo è accessibile su arXiv.
Fatti principali
- ID articolo: arXiv:2605.01051
- Pubblicato su arXiv
- Affronta le funzioni valore per specifiche di logica temporale
- Identifica una patologia nella massimizzazione greedy della funzione Q per problemi di raggiungimento-evitamento
- Costruisce politiche non markoviane basate sulla storia dello stato
- Dimostra l'ottimalità per specifiche Until nidificate, Globally e Globally-Until
- Utilizza un punteggio di robustezza quantitativa
- Estende il filtraggio di sicurezza della funzione Q a specifiche TL complesse
Entità
Istituzioni
- arXiv