Curriculum Autonomo Guidato dal Selettore Potenzia l'Apprendimento One-Shot con Ricompense Verificabili per LLM
Un nuovo approccio chiamato Curriculum Autonomo Guidato dal Selettore (SGAC) migliora l'apprendimento per rinforzo one-shot da ricompense verificabili (RLVR) per modelli linguistici di grandi dimensioni (LLM). I metodi attuali all'avanguardia utilizzano euristiche basate sulla varianza storica delle ricompense per selezionare gli esempi di addestramento, ma ciò è fuorviante come misura di trasferibilità. SGAC impiega un modello selettore apprendibile che considera uno spazio multidimensionale di caratteristiche, tra cui probabilità di successo, varianza della ricompensa, disaccordo nell'output (entropia) e difficoltà semantica. La valutazione empirica mostra che il disaccordo nell'output è il predittore più forte dei guadagni nel ragionamento, superando la varianza della ricompensa. Il metodo è stato testato su pool di problemi candidati.
Fatti principali
- SGAC utilizza un modello selettore apprendibile per la selezione degli esempi in RLVR
- Le euristiche attuali basate sulla varianza della ricompensa sono fuorvianti
- Il disaccordo nell'output è il predittore più forte dei guadagni nel ragionamento
- Lo spazio delle caratteristiche include probabilità di successo, varianza della ricompensa, entropia e difficoltà semantica
- Valutazione empirica condotta su pool di problemi candidati
- RLVR migliora le capacità di ragionamento matematico degli LLM da un singolo esempio
- Articolo pubblicato su arXiv con ID 2605.01823
- SGAC sta per Curriculum Autonomo Guidato dal Selettore
Entità
Istituzioni
- arXiv