ARTFEED — Contemporary Art Intelligence

Ottimizzazione Bilevel per Giochi Markoviani a Somma Zero con l'Algoritmo PANDA

ai-technology · 2026-05-27

I ricercatori propongono PANDA, un metodo di policy-gradient del primo ordine basato su penalità per l'ottimizzazione bilevel in cui il problema di livello inferiore è un gioco markoviano regolarizzato min-max a somma zero. A differenza dei metodi RL bilevel esistenti che assumono un MDP di livello inferiore con politica singola, PANDA gestisce strutture competitive che emergono in applicazioni come il design di incentivi. Il metodo sfrutta la funzione di Nikaido-Isoda per evitare il calcolo degli ipergradienti di livello superiore e non richiede informazioni del secondo ordine. Questo lavoro colma una lacuna nell'RL gerarchico con politiche multiple interagenti.

Fatti principali

  • Ottimizzazione bilevel su punti di sella di giochi markoviani a somma zero
  • PANDA: discesa-ascesa di Nikaido-Isoda con penalità aumentata
  • Il problema di livello inferiore è un gioco markoviano regolarizzato min-max a somma zero
  • L'obiettivo di livello superiore è ottimizzato attraverso l'equilibrio del punto di sella
  • Evita il calcolo degli ipergradienti di livello superiore
  • Nessuna informazione del secondo ordine richiesta
  • Applicabile al design di incentivi
  • Pubblicato su arXiv con ID 2605.26654

Entità

Istituzioni

  • arXiv

Fonti