ARTFEED — Contemporary Art Intelligence

L'ottimizzazione della politica vettoriale migliora la diversità degli LLM per la ricerca in fase di test

ai-technology · 2026-05-23

Un nuovo algoritmo di apprendimento per rinforzo, Vector Policy Optimization (VPO), addestra modelli linguistici a produrre output diversificati per procedure di ricerca in fase di inferenza come AlphaEvolve. Il post-addestramento standard ottimizza un singolo reward scalare, portando a distribuzioni a bassa entropia che ostacolano la diversità della ricerca. VPO sfrutta reward vettoriali, come la correttezza per singolo caso di test nel codice o molteplici profili utente, e funge da sostituto diretto dello stimatore di vantaggio GRPO. L'approccio addestra esplicitamente le politiche ad anticipare funzioni di reward a valle diversificate e a generare soluzioni varie, affrontando una limitazione chiave degli attuali paradigmi di post-addestramento degli LLM.

Fatti principali

  • VPO addestra gli LLM a produrre soluzioni diversificate per la ricerca in fase di inferenza.
  • Il post-addestramento standard ottimizza un singolo reward scalare, causando output a bassa entropia.
  • VPO utilizza reward vettoriali come la correttezza per singolo caso di test o molteplici profili utente.
  • VPO è un sostituto diretto dello stimatore di vantaggio GRPO.
  • L'algoritmo mira alla diversità necessaria per procedure di ricerca come AlphaEvolve.
  • VPO addestra esplicitamente le politiche ad anticipare funzioni di reward a valle diversificate.
  • L'articolo è pubblicato su arXiv con ID 2605.22817.
  • L'approccio affronta una limitazione chiave del post-addestramento attuale degli LLM.

Entità

Istituzioni

  • arXiv

Fonti