RL basato su rubriche potenzia il ragionamento LLM con ricompense strutturate

ai-technology · 2026-05-11

Un approccio innovativo noto come apprendimento per rinforzo (RL) basato su rubriche suddivide le ricompense in criteri verificabili e pesati, valutati da un giudice LLM statico, offrendo un segnale per l'ottimizzazione del credito parziale. Invece di basarsi su un risultato binario o su un singolo punteggio complessivo, ogni risposta viene valutata in base a vari criteri specifici del compito. La politica viene perfezionata utilizzando questa ricompensa strutturata e multi-criterio, condizionandola a un ancoraggio ausiliario a cui la politica non ha accesso. Questo framework è stato sviluppato utilizzando rubriche da un corpus OSTI contenente circa 100.000 documenti scientifici e tecnici, addestrando Llama-3.1-8B-Instruct con Group Relative Policy Optimization (GRPO). Il modello ottimizzato con GRPO ha raggiunto una ricompensa normalizzata del 71,7% nella valutazione della rubrica tenuta da parte e ha superato il modello base su quattro benchmark di ragionamento.

Fatti principali

1. L'RL basato su rubriche scompone la ricompensa in criteri verificabili e pesati.
2. Un giudice LLM congelato valuta le risposte secondo molteplici criteri specifici del compito.
3. La politica viene ottimizzata rispetto a una ricompensa strutturata e multi-criterio.
4. Le rubriche sono derivate da un corpus OSTI di circa 100.000 documenti.
5. Llama-3.1-8B-Instruct addestrato con GRPO.
6. Il modello ha raggiunto una ricompensa normalizzata del 71,7% nella valutazione della rubrica tenuta da parte.
7. La politica ottimizzata con GRPO ha superato il modello base su quattro benchmark di ragionamento.

RL basato su rubriche potenzia il ragionamento LLM con ricompense strutturate

Fatti principali

Entità

Istituzioni

Fonti