Il Framework OGER Unifica la Guida Offline e il RL Online per una Migliore Esplorazione degli LLM

ai-technology · 2026-04-22

Un nuovo framework chiamato OGER è stato introdotto per affrontare le limitazioni del Reinforcement Learning con Ricompense Verificabili (RLVR) per i Large Language Model (LLM). L'approccio combina la guida offline di insegnanti con il reinforcement learning online attraverso una modellazione specializzata delle ricompense. OGER utilizza un addestramento collaborativo multi-insegnante per creare una ricompensa di esplorazione ausiliaria che attinge sia dalle traiettorie offline che dall'entropia del modello stesso. Ciò incentiva l'esplorazione autonoma oltre lo spazio latente iniziale del modello. Test estensivi su benchmark di ragionamento matematico e generale mostrano che OGER supera i metodi baseline esistenti. Il framework è stato dettagliato in un articolo pubblicato su arXiv con identificatore 2604.18530v1. Rappresenta un progresso nell'affrontare le sfide di esplorazione che sono persistite nonostante precedenti strategie guidate dall'entropia e approcci di guida offline. La ricerca dimostra prestazioni migliorate nei compiti di ragionamento degli LLM attraverso questa metodologia ibrida.

Fatti principali

OGER è un nuovo framework per il Reinforcement Learning con Ricompense Verificabili (RLVR)
Unifica la guida offline degli insegnanti e il reinforcement learning online
Il framework utilizza un addestramento collaborativo multi-insegnante
Costruisce una ricompensa di esplorazione ausiliaria sfruttando le traiettorie offline e l'entropia del modello
OGER incentiva l'esplorazione autonoma oltre lo spazio latente iniziale
Sono stati condotti esperimenti estensivi su benchmark di ragionamento matematico e generale
Il framework supera significativamente i baseline competitivi
La ricerca è stata pubblicata su arXiv con identificatore 2604.18530v1

Il Framework OGER Unifica la Guida Offline e il RL Online per una Migliore Esplorazione degli LLM

Fatti principali

Entità

Istituzioni

Fonti