VI-CuRL: Apprendimento per Rinforzo Senza Verificatore per il Ragionamento degli LLM tramite Riduzione della Varianza Guidata dalla Confidenza

ai-technology · 2026-05-25

Un nuovo framework di apprendimento per rinforzo, Verifier-Independent Curriculum Reinforcement Learning (VI-CuRL), affronta il problema della varianza distruttiva del gradiente nell'addestramento senza verificatore dei Large Language Models (LLM) per compiti di ragionamento. Metodi standard come Group Relative Policy Optimization (GRPO) spesso soffrono di collasso dell'addestramento a causa dell'elevata varianza. VI-CuRL sfrutta la confidenza intrinseca del modello per costruire un curriculum che prioritizza campioni ad alta confidenza, gestendo efficacemente il trade-off bias-varianza riducendo la varianza di azione e di problema. Il framework è progettato per stabilizzare l'addestramento senza dipendere da verificatori esterni, migliorando la scalabilità. L'articolo, pubblicato su arXiv (2602.12579v2), fornisce un'analisi rigorosa e dimostra l'efficacia di VI-CuRL nel migliorare le capacità di ragionamento.

Fatti principali

VI-CuRL è un framework di apprendimento per rinforzo basato su curriculum indipendente dal verificatore.
Affronta la varianza distruttiva del gradiente nell'addestramento al ragionamento degli LLM senza verificatore.
Il GRPO standard spesso porta al collasso dell'addestramento in contesti senza verificatore.
VI-CuRL utilizza la confidenza intrinseca del modello per prioritizzare campioni ad alta confidenza.
Il framework riduce la varianza di azione e di problema.
Gestisce il trade-off bias-varianza senza verificatori esterni.
L'articolo è pubblicato su arXiv con ID 2602.12579v2.
VI-CuRL mira a migliorare la scalabilità di RLVR per gli LLM.

VI-CuRL: Apprendimento per Rinforzo Senza Verificatore per il Ragionamento degli LLM tramite Riduzione della Varianza Guidata dalla Confidenza

Fatti principali

Entità

Istituzioni

Fonti