ARTFEED — Contemporary Art Intelligence

EXPO: Nuovo Algoritmo RLVR Migliora il Ragionamento Matematico degli LLM

ai-technology · 2026-05-12

Un nuovo articolo su arXiv (2605.09923) introduce l'Exploration-Prioritized Policy Optimization (EXPO), un metodo per migliorare l'apprendimento per rinforzo nei grandi modelli linguistici (LLM) per il ragionamento matematico. Gli autori identificano due inefficienze nell'algoritmo standard Group Relative Policy Optimization (GRPO): un coefficiente di penalità KL fisso che limita l'esplorazione delle politiche e un campionamento uniforme delle domande di addestramento che non riesce a dare priorità ai problemi di difficoltà moderata. EXPO propone due moduli plug-in leggeri: Accuracy-Conditioned KL Scaling (AKL), che regola dinamicamente la regolarizzazione KL in base all'accuratezza del batch, e Gaussian Curriculum Sampling, che concentra l'addestramento su domande di difficoltà moderata. L'obiettivo è migliorare l'efficienza e l'efficacia di RLVR per gli LLM.

Fatti principali

  • Articolo pubblicato su arXiv con ID 2605.09923
  • Propone Exploration-Prioritized Policy Optimization (EXPO)
  • Affronta le inefficienze di Group Relative Policy Optimization (GRPO)
  • Introduce il modulo Accuracy-Conditioned KL Scaling (AKL)
  • Introduce il modulo Gaussian Curriculum Sampling
  • Si concentra sul ragionamento matematico per gli LLM
  • RLVR sta per Reinforcement Learning with Verifiable Rewards
  • L'articolo è classificato come nuovo annuncio su arXiv

Entità

Istituzioni

  • arXiv

Fonti