GRPO-VPS migliora il ragionamento dei LLM con supervisione di processo verificabile

ai-technology · 2026-04-24

Un nuovo metodo chiamato GRPO-VPS è stato sviluppato dai ricercatori per migliorare l'ottimizzazione delle politiche relative di gruppo (GRPO) per i grandi modelli linguistici attraverso l'incorporazione di una supervisione di processo verificabile. GRPO, una strategia di apprendimento per rinforzo, utilizza ricompense verificabili per potenziare il ragionamento senza fare affidamento su un modello critico. Tuttavia, affronta sfide con l'assegnazione indiscriminata del credito durante i passaggi intermedi, che può portare a un eccesso di riflessione. L'approccio innovativo valuta la fiducia del modello nella risposta corretta in vari punti del suo ragionamento dividendo il processo di generazione in passaggi distinti e monitorando la probabilità condizionale della risposta corretta a ciascun confine. Ciò si traduce in chiari indicatori di progresso segmento per segmento che migliorano il feedback a livello di traiettoria di GRPO, facilitando un apprendimento più efficiente. Questa ricerca è dettagliata in un articolo su arXiv (2604.20659) e mira a migliorare le capacità di ragionamento nei LLM.

Fatti principali

GRPO-VPS introduce una supervisione di processo verificabile per GRPO
GRPO elimina la necessità di modelli critici in RLVR
GRPO soffre di assegnazione indiscriminata del credito per i passaggi intermedi
Il metodo sonda la fiducia del modello nella risposta corretta
Segmenta la generazione in passaggi discreti
Tiene traccia della probabilità condizionale della risposta corretta ai confini dei segmenti
L'approccio calcola misurazioni interpretabili del progresso segmento per segmento
L'articolo è disponibile su arXiv (2604.20659)

GRPO-VPS migliora il ragionamento dei LLM con supervisione di processo verificabile

Fatti principali

Entità

Istituzioni

Fonti