Nuova Ricerca sull'IA Propone l'Explained Variance Policy Optimization per il Post-Addestramento dei LLM

ai-technology · 2026-04-22

Uno studio recente presenta l'Explained Variance Policy Optimization (EVPO), una strategia per decidere quando incorporare un critico appreso nell'apprendimento per rinforzo per il post-addestramento di grandi modelli linguistici. Questa ricerca affronta una decisione progettuale critica nell'RL per i LLM: la scelta tra metodi basati su critico come il Proximal Policy Optimization e tecniche senza critico come il GRPO. La teoria tradizionale spesso supporta i metodi basati su critico per ridurre la varianza. Tuttavia, gli autori rivelano che in ambienti con ricompense sparse, un critico appreso può introdurre rumore di stima che supera il segnale dello stato, potenzialmente aumentando la varianza del vantaggio. Concettualizzando la selezione della baseline come un problema di filtraggio di Kalman, il documento collega PPO e GRPO come due estremi del guadagno di Kalman. Gli autori stabiliscono che la varianza spiegata, calcolabile da un singolo batch di addestramento, delinea il confine esatto: un EV positivo suggerisce che il critico riduce la varianza, mentre un EV zero o negativo indica un aumento. Questo quadro teorico sostiene il metodo EVPO, che impiega dinamicamente i critici in base alla metrica della varianza spiegata. I risultati sono stati condivisi su arXiv con l'identificatore 2604.19485v1, evidenziando la crescente preferenza per i metodi senza critico grazie alla loro facilità d'uso e alle prestazioni solide, nonostante il supporto teorico per i metodi basati su critico.

Fatti principali

Il documento di ricerca introduce l'Explained Variance Policy Optimization (EVPO).
L'EVPO affronta la questione se utilizzare un critico appreso nell'RL per il post-addestramento dei LLM.
In contesti con ricompense sparse, un critico appreso può aumentare la varianza del vantaggio.
La selezione della baseline è formulata come un problema di filtraggio di Kalman.
La varianza spiegata identifica quando un critico riduce o aumenta la varianza.
Il documento unifica PPO e GRPO come due estremi del guadagno di Kalman.
La ricerca è stata annunciata su arXiv con l'identificatore 2604.19485v1.
Il tipo di annuncio è cross.

Nuova Ricerca sull'IA Propone l'Explained Variance Policy Optimization per il Post-Addestramento dei LLM

Fatti principali

Entità

Istituzioni

Fonti