RL basato su rubriche potenzia il ragionamento LLM con ricompense strutturate
Un approccio innovativo noto come apprendimento per rinforzo (RL) basato su rubriche suddivide le ricompense in criteri verificabili e pesati, valutati da un giudice LLM statico, offrendo un segnale per l'ottimizzazione del credito parziale. Invece di basarsi su un risultato binario o su un singolo punteggio complessivo, ogni risposta viene valutata in base a vari criteri specifici del compito. La politica viene perfezionata utilizzando questa ricompensa strutturata e multi-criterio, condizionandola a un ancoraggio ausiliario a cui la politica non ha accesso. Questo framework è stato sviluppato utilizzando rubriche da un corpus OSTI contenente circa 100.000 documenti scientifici e tecnici, addestrando Llama-3.1-8B-Instruct con Group Relative Policy Optimization (GRPO). Il modello ottimizzato con GRPO ha raggiunto una ricompensa normalizzata del 71,7% nella valutazione della rubrica tenuta da parte e ha superato il modello base su quattro benchmark di ragionamento.
Fatti principali
- 1. L'RL basato su rubriche scompone la ricompensa in criteri verificabili e pesati.
- 2. Un giudice LLM congelato valuta le risposte secondo molteplici criteri specifici del compito.
- 3. La politica viene ottimizzata rispetto a una ricompensa strutturata e multi-criterio.
- 4. Le rubriche sono derivate da un corpus OSTI di circa 100.000 documenti.
- 5. Llama-3.1-8B-Instruct addestrato con GRPO.
- 6. Il modello ha raggiunto una ricompensa normalizzata del 71,7% nella valutazione della rubrica tenuta da parte.
- 7. La politica ottimizzata con GRPO ha superato il modello base su quattro benchmark di ragionamento.
Entità
Istituzioni
- Office of Scientific and Technical Information