Ottimizzazione delle Politiche di Equilibrio Sicuro per Agenti Linguistici Strategici
Una nuova tecnica di apprendimento per rinforzo nota come Safe Equilibrium Policy Optimization (SEPO) affronta le modalità di fallimento strategico nei modelli linguistici. Aumentando il payoff atteso con penalità per i rischi associati a sfruttabilità, collusione e costi esterni, SEPO funge da segnale di ricompensa per Group Relative Policy Optimization (GRPO). Questo metodo è stato applicato a Gemma 4 E4B-it e Qwen 3.5-4B dopo un fine-tuning supervisionato. In valutazioni che coprono cinque scenari strategici—Dilemma del Prigioniero Iterato, aste ripetute, due tipi di negoziazione e Kuhn Poker—SEPO elimina con successo il vantaggio del pool di sfruttamento, riducendo i rischi di approfittare di avversari più deboli, coordinamento dannoso e costi esternalizzati. L'approccio mira a collegare le modalità di fallimento strategico con l'interfaccia linguistica stessa.
Fatti principali
- SEPO aumenta il payoff atteso con penalità per sfruttabilità, rischio di collusione e costo esterno.
- Implementato come segnale di ricompensa per Group Relative Policy Optimization (GRPO).
- Applicato a Gemma 4 E4B-it e Qwen 3.5-4B dopo fine-tuning supervisionato.
- Valutato su Dilemma del Prigioniero Iterato, aste ripetute, due varianti di negoziazione e Kuhn Poker.
- Raggiunge un vantaggio del pool di sfruttamento pari a zero.
- Affronta le modalità di fallimento strategico nei modelli linguistici ottimizzati con apprendimento per rinforzo.
- Mira allo sfruttamento di avversari più deboli, al coordinamento su equilibri dannosi e all'esternalizzazione dei costi.
- Metodo proposto nell'articolo arXiv 2605.30854.
Entità
Istituzioni
- arXiv