Tournament-GRPO: Ricompense a Torneo di Gruppo per RL nella Generazione di Testi Lunghi

ai-technology · 2026-05-27

Un nuovo framework per l'apprendimento per rinforzo, chiamato Tournament-GRPO, affronta le difficoltà associate alla generazione aperta di testi lunghi in scenari in cui mancano risposte di riferimento e metriche automatizzate. Invece di dipendere da valutazioni puntuali LLM-as-a-judge—che possono essere difficili da calibrare e possono raggiungere la saturazione—Tournament-GRPO trasforma le valutazioni LLM basate su rubriche in ricompense relative attraverso tornei iterativi multi-round che coinvolgono rollout della stessa query. Questo approccio valuta i candidati all'interno di gruppi, compila i risultati del torneo e li normalizza in ricompense specifiche per il gruppo per l'addestramento GRPO. I test condotti su Deep Research Bench rivelano che Tournament-GRPO supera costantemente gli attuali benchmark di progettazione delle ricompense, ottenendo un miglioramento complessivo del punteggio di 4.52 punti rispetto alla baseline principale. La ricerca è accessibile su arXiv con ID 2605.26958.

Fatti principali

Tournament-GRPO è un framework di ricompense di gruppo per l'apprendimento per rinforzo nella generazione aperta di testi lunghi.
Utilizza tornei multi-round ripetuti tra rollout della stessa query per convertire i giudizi LLM guidati da rubriche in ricompense relative.
Il metodo normalizza i risultati del torneo in ricompense di gruppo per l'addestramento GRPO.
Gli esperimenti su Deep Research Bench mostrano un miglioramento complessivo del punteggio di 4.52 punti rispetto alla baseline più forte.
L'articolo è pubblicato su arXiv con ID 2605.26958.
I metodi basati su rubriche esistenti si basano su valutazioni puntuali LLM-as-a-judge, che possono essere difficili da calibrare e saturano.
Tournament-GRPO fornisce una discriminazione più forte tra rollout della stessa query.
Il framework supera costantemente le baseline esistenti di progettazione delle ricompense.

Tournament-GRPO: Ricompense a Torneo di Gruppo per RL nella Generazione di Testi Lunghi

Fatti principali

Entità

Istituzioni

Fonti