Il Framework OGER Unifica la Guida Offline e il RL Online per una Migliore Esplorazione degli LLM
Un nuovo framework chiamato OGER è stato introdotto per affrontare le limitazioni del Reinforcement Learning con Ricompense Verificabili (RLVR) per i Large Language Model (LLM). L'approccio combina la guida offline di insegnanti con il reinforcement learning online attraverso una modellazione specializzata delle ricompense. OGER utilizza un addestramento collaborativo multi-insegnante per creare una ricompensa di esplorazione ausiliaria che attinge sia dalle traiettorie offline che dall'entropia del modello stesso. Ciò incentiva l'esplorazione autonoma oltre lo spazio latente iniziale del modello. Test estensivi su benchmark di ragionamento matematico e generale mostrano che OGER supera i metodi baseline esistenti. Il framework è stato dettagliato in un articolo pubblicato su arXiv con identificatore 2604.18530v1. Rappresenta un progresso nell'affrontare le sfide di esplorazione che sono persistite nonostante precedenti strategie guidate dall'entropia e approcci di guida offline. La ricerca dimostra prestazioni migliorate nei compiti di ragionamento degli LLM attraverso questa metodologia ibrida.
Fatti principali
- OGER è un nuovo framework per il Reinforcement Learning con Ricompense Verificabili (RLVR)
- Unifica la guida offline degli insegnanti e il reinforcement learning online
- Il framework utilizza un addestramento collaborativo multi-insegnante
- Costruisce una ricompensa di esplorazione ausiliaria sfruttando le traiettorie offline e l'entropia del modello
- OGER incentiva l'esplorazione autonoma oltre lo spazio latente iniziale
- Sono stati condotti esperimenti estensivi su benchmark di ragionamento matematico e generale
- Il framework supera significativamente i baseline competitivi
- La ricerca è stata pubblicata su arXiv con identificatore 2604.18530v1
Entità
Istituzioni
- arXiv