Tournament-GRPO: Ricompense a Torneo di Gruppo per RL nella Generazione di Testi Lunghi
Un nuovo framework per l'apprendimento per rinforzo, chiamato Tournament-GRPO, affronta le difficoltà associate alla generazione aperta di testi lunghi in scenari in cui mancano risposte di riferimento e metriche automatizzate. Invece di dipendere da valutazioni puntuali LLM-as-a-judge—che possono essere difficili da calibrare e possono raggiungere la saturazione—Tournament-GRPO trasforma le valutazioni LLM basate su rubriche in ricompense relative attraverso tornei iterativi multi-round che coinvolgono rollout della stessa query. Questo approccio valuta i candidati all'interno di gruppi, compila i risultati del torneo e li normalizza in ricompense specifiche per il gruppo per l'addestramento GRPO. I test condotti su Deep Research Bench rivelano che Tournament-GRPO supera costantemente gli attuali benchmark di progettazione delle ricompense, ottenendo un miglioramento complessivo del punteggio di 4.52 punti rispetto alla baseline principale. La ricerca è accessibile su arXiv con ID 2605.26958.
Fatti principali
- Tournament-GRPO è un framework di ricompense di gruppo per l'apprendimento per rinforzo nella generazione aperta di testi lunghi.
- Utilizza tornei multi-round ripetuti tra rollout della stessa query per convertire i giudizi LLM guidati da rubriche in ricompense relative.
- Il metodo normalizza i risultati del torneo in ricompense di gruppo per l'addestramento GRPO.
- Gli esperimenti su Deep Research Bench mostrano un miglioramento complessivo del punteggio di 4.52 punti rispetto alla baseline più forte.
- L'articolo è pubblicato su arXiv con ID 2605.26958.
- I metodi basati su rubriche esistenti si basano su valutazioni puntuali LLM-as-a-judge, che possono essere difficili da calibrare e saturano.
- Tournament-GRPO fornisce una discriminazione più forte tra rollout della stessa query.
- Il framework supera costantemente le baseline esistenti di progettazione delle ricompense.
Entità
Istituzioni
- arXiv