ARTFEED — Contemporary Art Intelligence

FEST: Il RLVR guidato da dimostrazioni few-shot migliora l'efficienza dei campioni LLM

ai-technology · 2026-05-16

Un nuovo algoritmo chiamato FEST (FEw-ShoT demonstration-guided RLVR) è stato introdotto dai ricercatori per migliorare l'efficienza dei campioni nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per i Grandi Modelli Linguistici (LLM). Questo metodo utilizza solo 128 dimostrazioni selezionate casualmente da un dataset di supervised fine-tuning (SFT), eliminando la necessità di un costoso SFT su larga scala. La sua efficacia è attribuita a tre elementi essenziali: un segnale supervisionato, un segnale on-policy e pesi decrescenti sul dataset SFT limitato per mitigare l'overfitting. Nei test di benchmark, FEST supera le baseline esistenti, offrendo una soluzione efficiente in termini di dati per sfide matematiche e di codifica dove i rollout accurati sono limitati.

Fatti principali

  • FEST è un algoritmo RLVR guidato da dimostrazioni few-shot.
  • Utilizza solo 128 dimostrazioni selezionate casualmente da un dataset SFT.
  • Tre componenti: segnale supervisionato, segnale on-policy, pesi decrescenti.
  • I pesi decrescenti prevengono l'overfitting da addestramento multi-epoca.
  • FEST supera le baseline su diversi benchmark.
  • RLVR ha avuto successo per compiti di matematica e codifica.
  • Lavori precedenti utilizzavano SFT quando RL falliva, ma SFT richiede molti dati.
  • Il paper è arXiv:2605.15012.

Entità

Fonti