Ottimizzazione Bilevel per Giochi Markoviani a Somma Zero con l'Algoritmo PANDA

ai-technology · 2026-05-27

I ricercatori propongono PANDA, un metodo di policy-gradient del primo ordine basato su penalità per l'ottimizzazione bilevel in cui il problema di livello inferiore è un gioco markoviano regolarizzato min-max a somma zero. A differenza dei metodi RL bilevel esistenti che assumono un MDP di livello inferiore con politica singola, PANDA gestisce strutture competitive che emergono in applicazioni come il design di incentivi. Il metodo sfrutta la funzione di Nikaido-Isoda per evitare il calcolo degli ipergradienti di livello superiore e non richiede informazioni del secondo ordine. Questo lavoro colma una lacuna nell'RL gerarchico con politiche multiple interagenti.

Fatti principali

Ottimizzazione bilevel su punti di sella di giochi markoviani a somma zero
PANDA: discesa-ascesa di Nikaido-Isoda con penalità aumentata
Il problema di livello inferiore è un gioco markoviano regolarizzato min-max a somma zero
L'obiettivo di livello superiore è ottimizzato attraverso l'equilibrio del punto di sella
Evita il calcolo degli ipergradienti di livello superiore
Nessuna informazione del secondo ordine richiesta
Applicabile al design di incentivi
Pubblicato su arXiv con ID 2605.26654

Ottimizzazione Bilevel per Giochi Markoviani a Somma Zero con l'Algoritmo PANDA

Fatti principali

Entità

Istituzioni

Fonti