ARTFEED — Contemporary Art Intelligence

Pilot-Commit: Allocazione dei Rollout Consapevole del Budget per il Post-Allenamento RL di Gruppo

ai-technology · 2026-05-27

Il recentemente introdotto framework, Pilot-Commit, affronta il problema dell'inefficienza computazionale associata alla generazione di rollout nell'apprendimento per rinforzo (RL) di gruppo per grandi modelli linguistici (LLM) dopo l'addestramento. In ambienti online, on-policy, i costi di addestramento sono principalmente guidati dalla generazione di rollout. Mentre le tecniche di ottimizzazione delle politiche di gruppo traggono vantaggio da diversi rollout per ogni prompt, spesso sprecano risorse su prompt con distribuzioni di ricompensa collassate. Gli autori dimostrano che gli aggiornamenti di gruppo producono i migliori risultati quando c'è una varianza di ricompensa significativa. Poiché la politica cambia durante l'addestramento, è cruciale valutare l'informatività del prompt in tempo reale. Pilot-Commit separa la valutazione del prompt dallo sfruttamento attraverso una fase pilota che misura l'informatività per prompt, consentendo un'allocazione delle risorse consapevole del budget. Questo studio è disponibile su arXiv con ID 2605.26606.

Fatti principali

  • Pilot-Commit è un framework di allocazione dei rollout consapevole del budget per il post-allenamento RL di gruppo.
  • La generazione di rollout domina il costo computazionale nell'RL online, on-policy per LLM.
  • I metodi di gruppo calcolano i vantaggi da più rollout per prompt.
  • I metodi attuali sprecano rollout su prompt con distribuzioni di ricompensa collassate.
  • Gli aggiornamenti di gruppo sono più efficaci in regimi di alta varianza di ricompensa.
  • L'informatività del prompt deve essere stimata online a causa dell'evoluzione della politica.
  • La fase pilota stima l'informatività per prompt prima dell'allocazione.
  • L'articolo è disponibile su arXiv con ID 2605.26606.

Entità

Istituzioni

  • arXiv

Fonti