FEST: Il RLVR guidato da dimostrazioni few-shot migliora l'efficienza dei campioni LLM

ai-technology · 2026-05-16

Un nuovo algoritmo chiamato FEST (FEw-ShoT demonstration-guided RLVR) è stato introdotto dai ricercatori per migliorare l'efficienza dei campioni nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per i Grandi Modelli Linguistici (LLM). Questo metodo utilizza solo 128 dimostrazioni selezionate casualmente da un dataset di supervised fine-tuning (SFT), eliminando la necessità di un costoso SFT su larga scala. La sua efficacia è attribuita a tre elementi essenziali: un segnale supervisionato, un segnale on-policy e pesi decrescenti sul dataset SFT limitato per mitigare l'overfitting. Nei test di benchmark, FEST supera le baseline esistenti, offrendo una soluzione efficiente in termini di dati per sfide matematiche e di codifica dove i rollout accurati sono limitati.

Fatti principali

FEST è un algoritmo RLVR guidato da dimostrazioni few-shot.
Utilizza solo 128 dimostrazioni selezionate casualmente da un dataset SFT.
Tre componenti: segnale supervisionato, segnale on-policy, pesi decrescenti.
I pesi decrescenti prevengono l'overfitting da addestramento multi-epoca.
FEST supera le baseline su diversi benchmark.
RLVR ha avuto successo per compiti di matematica e codifica.
Lavori precedenti utilizzavano SFT quando RL falliva, ma SFT richiede molti dati.
Il paper è arXiv:2605.15012.

Entità

—

Fonti

arXiv cs.AI — 2026-05-16