Curriculum Autonomo Guidato dal Selettore Potenzia l'Apprendimento One-Shot con Ricompense Verificabili per LLM

ai-technology · 2026-05-06

Un nuovo approccio chiamato Curriculum Autonomo Guidato dal Selettore (SGAC) migliora l'apprendimento per rinforzo one-shot da ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni (LLM). I metodi attuali all'avanguardia utilizzano euristiche basate sulla varianza storica delle ricompense per selezionare gli esempi di addestramento, ma ciò è fuorviante come misura di trasferibilità. SGAC impiega un modello selettore apprendibile che considera uno spazio multidimensionale di caratteristiche, tra cui probabilità di successo, varianza della ricompensa, disaccordo nell'output (entropia) e difficoltà semantica. La valutazione empirica mostra che il disaccordo nell'output è il predittore più forte dei guadagni nel ragionamento, superando la varianza della ricompensa. Il metodo è stato testato su pool di problemi candidati.

Fatti principali

SGAC utilizza un modello selettore apprendibile per la selezione degli esempi in RLVR
Le euristiche attuali basate sulla varianza della ricompensa sono fuorvianti
Il disaccordo nell'output è il predittore più forte dei guadagni nel ragionamento
Lo spazio delle caratteristiche include probabilità di successo, varianza della ricompensa, entropia e difficoltà semantica
Valutazione empirica condotta su pool di problemi candidati
RLVR migliora le capacità di ragionamento matematico degli LLM da un singolo esempio
Articolo pubblicato su arXiv con ID 2605.01823
SGAC sta per Curriculum Autonomo Guidato dal Selettore

Curriculum Autonomo Guidato dal Selettore Potenzia l'Apprendimento One-Shot con Ricompense Verificabili per LLM

Fatti principali

Entità

Istituzioni

Fonti