Nuovo algoritmo AI MCPO affronta le limitazioni dell'apprendimento per rinforzo nei grandi modelli linguistici

ai-technology · 2026-04-22

Un nuovo articolo di ricerca introduce Mastery-Consolidated Policy Optimization (MCPO), un algoritmo progettato per migliorare l'apprendimento per rinforzo nei grandi modelli linguistici. Il lavoro affronta specifici problemi riscontrati negli approcci esistenti di Group Relative Policy Optimization (GRPO). Quando i modelli raggiungono un'accuratezza perfetta su determinati prompt, i metodi GRPO perdono i segnali di addestramento, rischiando di far dimenticare al modello pattern precedentemente appresi. Per i prompt in cui il modello è prevalentemente corretto ma non perfetto, il segnale di addestramento si indebolisce con l'aumentare dell'accuratezza, ostacolando il progresso verso la piena padronanza. MCPO incorpora un regolarizzatore hinge-KL specifico per i prompt padroneggiati per prevenire la deriva della politica. Utilizza inoltre uno schema di ponderazione delle query che rafforza l'apprendimento dalle risposte parzialmente corrette. La ricerca si concentra sul Reinforcement Learning with Verifiable Rewards (RLVR), un campo mirato a potenziare le capacità di ragionamento degli LLM. L'articolo è stato pubblicato su arXiv con l'identificatore 2604.16972v1.

Fatti principali

L'articolo introduce Mastery-Consolidated Policy Optimization (MCPO).
MCPO affronta le limitazioni delle varianti di Group Relative Policy Optimization (GRPO).
Gli obiettivi di tipo GRPO perdono segnali di addestramento sui prompt padroneggiati (accuratezza al 100%).
Sui prompt prevalentemente corretti, il peso della query di GRPO si riduce con l'aumentare dell'accuratezza.
MCPO utilizza un regolarizzatore hinge-KL applicato esclusivamente ai prompt padroneggiati.
MCPO impiega uno schema di ponderazione delle query per rafforzare il consolidamento dalla correttezza parziale.
La ricerca è nel campo del Reinforcement Learning with Verifiable Rewards (RLVR).
L'obiettivo è migliorare le capacità di ragionamento dei Large Language Models (LLM).

Nuovo algoritmo AI MCPO affronta le limitazioni dell'apprendimento per rinforzo nei grandi modelli linguistici

Fatti principali

Entità

Istituzioni

Fonti