EXPO: Nuovo Algoritmo RLVR Migliora il Ragionamento Matematico degli LLM

ai-technology · 2026-05-12

Un nuovo articolo su arXiv (2605.09923) introduce l'Exploration-Prioritized Policy Optimization (EXPO), un metodo per migliorare l'apprendimento per rinforzo nei grandi modelli linguistici (LLM) per il ragionamento matematico. Gli autori identificano due inefficienze nell'algoritmo standard Group Relative Policy Optimization (GRPO): un coefficiente di penalità KL fisso che limita l'esplorazione delle politiche e un campionamento uniforme delle domande di addestramento che non riesce a dare priorità ai problemi di difficoltà moderata. EXPO propone due moduli plug-in leggeri: Accuracy-Conditioned KL Scaling (AKL), che regola dinamicamente la regolarizzazione KL in base all'accuratezza del batch, e Gaussian Curriculum Sampling, che concentra l'addestramento su domande di difficoltà moderata. L'obiettivo è migliorare l'efficienza e l'efficacia di RLVR per gli LLM.

Fatti principali

Articolo pubblicato su arXiv con ID 2605.09923
Propone Exploration-Prioritized Policy Optimization (EXPO)
Affronta le inefficienze di Group Relative Policy Optimization (GRPO)
Introduce il modulo Accuracy-Conditioned KL Scaling (AKL)
Introduce il modulo Gaussian Curriculum Sampling
Si concentra sul ragionamento matematico per gli LLM
RLVR sta per Reinforcement Learning with Verifiable Rewards
L'articolo è classificato come nuovo annuncio su arXiv

EXPO: Nuovo Algoritmo RLVR Migliora il Ragionamento Matematico degli LLM

Fatti principali

Entità

Istituzioni

Fonti