CPPO: Primo Algoritmo RL Contrastivo On-Policy per Azioni Discrete e Continue

other · 2026-05-14

Un team di ricercatori ha presentato il Contrastive Proximal Policy Optimisation (CPPO), segnandolo come il primo algoritmo di reinforcement learning contrastivo on-policy. CPPO ottiene vantaggi di policy direttamente dai Q-valori contrastivi e li affina utilizzando l'obiettivo PPO tradizionale, eliminando così la necessità di una funzione di ricompensa o di un replay buffer. Le attuali tecniche di RL contrastivo sono principalmente off-policy e generalmente limitate a spazi di azione continui. CPPO amplia l'ambito del RL contrastivo includendo framework di addestramento on-policy, supportando sia il reinforcement learning a singolo agente che multi-agente in contesti continui e discreti. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2605.13554.

Fatti principali

1. CPPO è un algoritmo RL contrastivo on-policy.
2. Deriva vantaggi di policy dai Q-valori contrastivi.
3. L'ottimizzazione utilizza l'obiettivo PPO standard.
4. Non richiede una funzione di ricompensa o un replay buffer.
5. Gli algoritmi CRL esistenti sono off-policy e per lo più per azioni continue.
6. CPPO funziona sia in spazi di azione continui che discreti.
7. Supporta RL a singolo agente e multi-agente.
8. L'articolo è su arXiv: 2605.13554.

CPPO: Primo Algoritmo RL Contrastivo On-Policy per Azioni Discrete e Continue

Fatti principali

Entità

Istituzioni

Fonti