CPPO: Primo Algoritmo RL Contrastivo On-Policy per Azioni Discrete e Continue
Un team di ricercatori ha presentato il Contrastive Proximal Policy Optimisation (CPPO), segnandolo come il primo algoritmo di reinforcement learning contrastivo on-policy. CPPO ottiene vantaggi di policy direttamente dai Q-valori contrastivi e li affina utilizzando l'obiettivo PPO tradizionale, eliminando così la necessità di una funzione di ricompensa o di un replay buffer. Le attuali tecniche di RL contrastivo sono principalmente off-policy e generalmente limitate a spazi di azione continui. CPPO amplia l'ambito del RL contrastivo includendo framework di addestramento on-policy, supportando sia il reinforcement learning a singolo agente che multi-agente in contesti continui e discreti. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2605.13554.
Fatti principali
- 1. CPPO è un algoritmo RL contrastivo on-policy.
- 2. Deriva vantaggi di policy dai Q-valori contrastivi.
- 3. L'ottimizzazione utilizza l'obiettivo PPO standard.
- 4. Non richiede una funzione di ricompensa o un replay buffer.
- 5. Gli algoritmi CRL esistenti sono off-policy e per lo più per azioni continue.
- 6. CPPO funziona sia in spazi di azione continui che discreti.
- 7. Supporta RL a singolo agente e multi-agente.
- 8. L'articolo è su arXiv: 2605.13554.
Entità
Istituzioni
- arXiv