L'ottimizzazione della politica vettoriale migliora la diversità degli LLM per la ricerca in fase di test
Un nuovo algoritmo di apprendimento per rinforzo, Vector Policy Optimization (VPO), addestra modelli linguistici a produrre output diversificati per procedure di ricerca in fase di inferenza come AlphaEvolve. Il post-addestramento standard ottimizza un singolo reward scalare, portando a distribuzioni a bassa entropia che ostacolano la diversità della ricerca. VPO sfrutta reward vettoriali, come la correttezza per singolo caso di test nel codice o molteplici profili utente, e funge da sostituto diretto dello stimatore di vantaggio GRPO. L'approccio addestra esplicitamente le politiche ad anticipare funzioni di reward a valle diversificate e a generare soluzioni varie, affrontando una limitazione chiave degli attuali paradigmi di post-addestramento degli LLM.
Fatti principali
- VPO addestra gli LLM a produrre soluzioni diversificate per la ricerca in fase di inferenza.
- Il post-addestramento standard ottimizza un singolo reward scalare, causando output a bassa entropia.
- VPO utilizza reward vettoriali come la correttezza per singolo caso di test o molteplici profili utente.
- VPO è un sostituto diretto dello stimatore di vantaggio GRPO.
- L'algoritmo mira alla diversità necessaria per procedure di ricerca come AlphaEvolve.
- VPO addestra esplicitamente le politiche ad anticipare funzioni di reward a valle diversificate.
- L'articolo è pubblicato su arXiv con ID 2605.22817.
- L'approccio affronta una limitazione chiave del post-addestramento attuale degli LLM.
Entità
Istituzioni
- arXiv