Articolo arXiv sull'Apprendimento di Politiche Ottimistiche con Avversari Pessimistici nei Sistemi Decisionali

ai-technology · 2026-04-20

Un articolo di ricerca intitolato "Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees" è stato reso disponibile su arXiv, con l'identificatore arXiv:2604.14243v2. Questo studio si concentra sui sistemi decisionali che operano in contesti in cui le transizioni di stato sono influenzate non solo dalle azioni dell'agente, ma anche da elementi esterni al di fuori del suo controllo, inclusi agenti rivali, cambiamenti ambientali o avversari strategici. L'evoluzione dello stato è rappresentata matematicamente come s_{h+1} = f(s_h, a_h, \bar{a}_h) + ω_h, dove a_h denota l'azione dell'agente, \bar{a}_h indica l'azione avversaria o esterna, e ω_h rappresenta il rumore additivo. Trascurare queste influenze esterne può portare a politiche che appaiono ottimali in teoria ma falliscono drammaticamente nella pratica, specialmente quando sono coinvolti vincoli di sicurezza. I tradizionali modelli di Processo Decisionale di Markov Vincolato (CMDP) assumono che sia l'agente a guidare esclusivamente i cambiamenti di stato, una premessa che vacilla negli scenari critici per la sicurezza. Mentre i metodi esistenti di apprendimento per rinforzo robusto affrontano questo problema attraverso la robustezza distribuzionale riguardo ai kernel di transizione, spesso trascurano l'interazione strategica tra l'agente e i fattori esterni. Questo articolo introduce tecniche che forniscono garanzie sia sul rimpianto che sulle violazioni dei vincoli in ambienti avversari.

Fatti principali

Articolo intitolato "Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees"
Pubblicato su arXiv con identificatore arXiv:2604.14243v2
Affronta sistemi decisionali con fattori esogeni come avversari o disturbi
Modello di transizione di stato: s_{h+1} = f(s_h, a_h, \bar{a}_h) + ω_h
Ignorare i fattori esterni può causare fallimenti catastrofici nell'implementazione
Le formulazioni standard di MDP Vincolato assumono che l'agente sia l'unico motore dell'evoluzione dello stato
L'apprendimento per rinforzo robusto esistente utilizza la robustezza distribuzionale sui kernel di transizione
Propone metodi con garanzie sul rimpianto e sulla violazione dei vincoli

Articolo arXiv sull'Apprendimento di Politiche Ottimistiche con Avversari Pessimistici nei Sistemi Decisionali

Fatti principali

Entità

Istituzioni

Fonti