Ottimizzazione delle Politiche di Equilibrio Sicuro per Agenti Linguistici Strategici

ai-technology · 2026-06-01

Una nuova tecnica di apprendimento per rinforzo nota come Safe Equilibrium Policy Optimization (SEPO) affronta le modalità di fallimento strategico nei modelli linguistici. Aumentando il payoff atteso con penalità per i rischi associati a sfruttabilità, collusione e costi esterni, SEPO funge da segnale di ricompensa per Group Relative Policy Optimization (GRPO). Questo metodo è stato applicato a Gemma 4 E4B-it e Qwen 3.5-4B dopo un fine-tuning supervisionato. In valutazioni che coprono cinque scenari strategici—Dilemma del Prigioniero Iterato, aste ripetute, due tipi di negoziazione e Kuhn Poker—SEPO elimina con successo il vantaggio del pool di sfruttamento, riducendo i rischi di approfittare di avversari più deboli, coordinamento dannoso e costi esternalizzati. L'approccio mira a collegare le modalità di fallimento strategico con l'interfaccia linguistica stessa.

Fatti principali

SEPO aumenta il payoff atteso con penalità per sfruttabilità, rischio di collusione e costo esterno.
Implementato come segnale di ricompensa per Group Relative Policy Optimization (GRPO).
Applicato a Gemma 4 E4B-it e Qwen 3.5-4B dopo fine-tuning supervisionato.
Valutato su Dilemma del Prigioniero Iterato, aste ripetute, due varianti di negoziazione e Kuhn Poker.
Raggiunge un vantaggio del pool di sfruttamento pari a zero.
Affronta le modalità di fallimento strategico nei modelli linguistici ottimizzati con apprendimento per rinforzo.
Mira allo sfruttamento di avversari più deboli, al coordinamento su equilibri dannosi e all'esternalizzazione dei costi.
Metodo proposto nell'articolo arXiv 2605.30854.

Ottimizzazione delle Politiche di Equilibrio Sicuro per Agenti Linguistici Strategici

Fatti principali

Entità

Istituzioni

Fonti