LoPE: La perturbazione del prompt potenzia il ragionamento LLM in GRPO
I ricercatori propongono Lorem Perturbation for Exploration (LoPE), un framework di addestramento che affronta il problema dello zero-advantage in Group Relative Policy Optimization (GRPO) per i grandi modelli linguistici. Quando tutti i rollout campionati per una query falliscono, GRPO perde segnali di addestramento efficaci. LoPE introduce perturbazioni nello spazio dei prompt non correlate al compito per spostare la distribuzione di output del modello, consentendo un'esplorazione del ragionamento più ampia senza aumentare i budget di campionamento. Il metodo mira a migliorare i tassi di successo in compiti di ragionamento complessi.
Fatti principali
- 1. GRPO soffre del problema dello zero-advantage quando tutti i rollout falliscono
- 2. LoPE utilizza perturbazioni nello spazio dei prompt per sbloccare l'esplorazione
- 3. LoPE è un framework di addestramento semplice ma efficace
- 4. Le perturbazioni non correlate al compito spostano la distribuzione di output
- 5. LoPE mira a migliorare i tassi di successo in compiti complessi
- 6. Il metodo non richiede un aumento del budget di campionamento
- 7. Articolo pubblicato su arXiv con ID 2605.05566
- 8. LoPE sta per Lorem Perturbation for Exploration
Entità
Istituzioni
- arXiv