GPS: Un Modello Leggero per un Efficiente Post-Addestramento RL di LLM
I ricercatori introducono Generalizable Predictive Prompt Selection (GPS), un metodo per migliorare l'efficienza del post-addestramento con reinforcement learning (RL) per grandi modelli di ragionamento. GPS utilizza un piccolo modello generativo per prevedere la difficoltà dei prompt tramite inferenza bayesiana sulla cronologia di ottimizzazione condivisa, consentendo la selezione online dei prompt senza costose valutazioni esatte. L'approccio dà priorità ai prompt di difficoltà intermedia e incorpora la diversità ancorata alla cronologia per l'acquisizione in batch. Esperimenti su vari compiti di ragionamento mostrano che GPS generalizza al momento del test, riducendo i costi computazionali mantenendo le prestazioni. L'articolo è disponibile su arXiv (2602.01970).
Fatti principali
- GPS esegue inferenza bayesiana sulla difficoltà dei prompt utilizzando un modello generativo leggero.
- Utilizza la priorità di difficoltà intermedia e la diversità ancorata alla cronologia per la selezione batch.
- Il metodo generalizza al momento del test per un'allocazione computazionale efficiente.
- Gli esperimenti sono stati condotti su vari compiti di ragionamento.
- L'articolo è arXiv:2602.01970.
- GPS mira a ridurre gli elevati costi computazionali dell'ottimizzazione RL intensiva in rollout.
- I metodi attuali dipendono da costose valutazioni esatte o mancano di generalizzazione tra i prompt.
- GPS è progettato per la selezione online dei prompt nel post-addestramento RL di grandi modelli di ragionamento.
Entità
Istituzioni
- arXiv