La supervisione di processo verificabile migliora il ragionamento dei modelli linguistici

ai-technology · 2026-05-14

Un team di ricercatori ha introdotto la supervisione di processo verificabile (VPS), un framework progettato per migliorare sia l'accuratezza delle previsioni che la qualità del ragionamento nei modelli linguistici dopo l'addestramento. A differenza dell'apprendimento per rinforzo che si concentra esclusivamente sui risultati finali e rischia di deteriorare il ragionamento, la VPS impiega il fine-tuning supervisionato per favorire formati di ragionamento strutturati. Questo approccio consente l'estrazione sintattica di affermazioni intermedie, che vengono poi valutate rispetto a segnali di verità di base per ricompense a livello di processo. Inoltre, un sistema di ponderazione adattivo delle ricompense enfatizza i componenti con i maggiori errori residui, creando efficacemente un curriculum implicito. Il metodo è stato testato nel dominio degli scacchi. L'articolo completo è disponibile su arXiv.

Fatti principali

La VPS ottimizza congiuntamente l'accuratezza delle previsioni e la qualità del ragionamento.
Il RL standard con ricompense verificabili può degradare il ragionamento mentre migliora l'accuratezza del compito.
Il fine-tuning supervisionato induce un formato di ragionamento strutturato.
Le ricompense a livello di processo derivano da affermazioni intermedie valutate rispetto a segnali di verità di base.
La ponderazione adattiva delle ricompense dà priorità ai componenti con i maggiori errori.
La valutazione è stata effettuata sugli scacchi.
L'articolo è disponibile su arXiv.
ID arXiv: 2605.12519

La supervisione di processo verificabile migliora il ragionamento dei modelli linguistici

Fatti principali

Entità

Istituzioni

Fonti