SORT: Selective Off-Policy Reference Tuning migliora il ragionamento nei LLM

ai-technology · 2026-05-13

I ricercatori hanno presentato Selective Off-Policy Reference Tuning (SORT), una tecnica che migliora l'apprendimento per rinforzo utilizzando ricompense verificabili per i grandi modelli linguistici. SORT affronta un significativo svantaggio degli approcci stile GRPO, che faticano con prompt difficili in cui ogni rollout campionato fallisce. Invece di alterare la generazione dei rollout, SORT implementa un aggiornamento di riparazione: formula un piano basato sulla soluzione di riferimento, valuta le probabilità dei token con e senza quel piano, e dà priorità ai token che diventano più prevedibili quando condizionati dal piano. Questo approccio converte prompt completamente errati in segnali di apprendimento selettivi e strutturati, piuttosto che in semplice imitazione. SORT dimostra miglioramenti rispetto a GRPO e ai baselines di guida su tre backbone e otto benchmark di ragionamento, in particolare a vantaggio dei modelli più deboli.

Fatti principali

1. SORT sta per Selective Off-Policy Reference Tuning.
2. È progettato per l'apprendimento per rinforzo con ricompense verificabili.
3. I metodi stile GRPO si bloccano su prompt difficili in cui tutti i rollout campionati falliscono.
4. SORT aggiunge un aggiornamento di riparazione per quei fallimenti senza modificare la generazione dei rollout.
5. Deriva un piano dalla soluzione di riferimento.
6. Confronta le probabilità dei token con e senza quel piano.
7. Viene dato peso maggiore ai token che diventano più prevedibili sotto condizionamento del piano.
8. SORT è stato testato su tre backbone e otto benchmark di ragionamento.
9. Migliora rispetto a GRPO e ai baselines di guida.
10. I maggiori guadagni sono stati sui modelli più deboli.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13