FEST: Il RLVR guidato da dimostrazioni few-shot migliora l'efficienza dei campioni LLM
Un nuovo algoritmo chiamato FEST (FEw-ShoT demonstration-guided RLVR) è stato introdotto dai ricercatori per migliorare l'efficienza dei campioni nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per i Grandi Modelli Linguistici (LLM). Questo metodo utilizza solo 128 dimostrazioni selezionate casualmente da un dataset di supervised fine-tuning (SFT), eliminando la necessità di un costoso SFT su larga scala. La sua efficacia è attribuita a tre elementi essenziali: un segnale supervisionato, un segnale on-policy e pesi decrescenti sul dataset SFT limitato per mitigare l'overfitting. Nei test di benchmark, FEST supera le baseline esistenti, offrendo una soluzione efficiente in termini di dati per sfide matematiche e di codifica dove i rollout accurati sono limitati.
Fatti principali
- FEST è un algoritmo RLVR guidato da dimostrazioni few-shot.
- Utilizza solo 128 dimostrazioni selezionate casualmente da un dataset SFT.
- Tre componenti: segnale supervisionato, segnale on-policy, pesi decrescenti.
- I pesi decrescenti prevengono l'overfitting da addestramento multi-epoca.
- FEST supera le baseline su diversi benchmark.
- RLVR ha avuto successo per compiti di matematica e codifica.
- Lavori precedenti utilizzavano SFT quando RL falliva, ma SFT richiede molti dati.
- Il paper è arXiv:2605.15012.
Entità
—