L'ottimizzazione della politica vettoriale migliora la diversità degli LLM per la ricerca in fase di test

ai-technology · 2026-05-23

Un nuovo algoritmo di apprendimento per rinforzo, Vector Policy Optimization (VPO), addestra modelli linguistici a produrre output diversificati per procedure di ricerca in fase di inferenza come AlphaEvolve. Il post-addestramento standard ottimizza un singolo reward scalare, portando a distribuzioni a bassa entropia che ostacolano la diversità della ricerca. VPO sfrutta reward vettoriali, come la correttezza per singolo caso di test nel codice o molteplici profili utente, e funge da sostituto diretto dello stimatore di vantaggio GRPO. L'approccio addestra esplicitamente le politiche ad anticipare funzioni di reward a valle diversificate e a generare soluzioni varie, affrontando una limitazione chiave degli attuali paradigmi di post-addestramento degli LLM.

Fatti principali

VPO addestra gli LLM a produrre soluzioni diversificate per la ricerca in fase di inferenza.
Il post-addestramento standard ottimizza un singolo reward scalare, causando output a bassa entropia.
VPO utilizza reward vettoriali come la correttezza per singolo caso di test o molteplici profili utente.
VPO è un sostituto diretto dello stimatore di vantaggio GRPO.
L'algoritmo mira alla diversità necessaria per procedure di ricerca come AlphaEvolve.
VPO addestra esplicitamente le politiche ad anticipare funzioni di reward a valle diversificate.
L'articolo è pubblicato su arXiv con ID 2605.22817.
L'approccio affronta una limitazione chiave del post-addestramento attuale degli LLM.

L'ottimizzazione della politica vettoriale migliora la diversità degli LLM per la ricerca in fase di test

Fatti principali

Entità

Istituzioni

Fonti