LoPE: La perturbazione del prompt potenzia il ragionamento LLM in GRPO

ai-technology · 2026-05-09

I ricercatori propongono Lorem Perturbation for Exploration (LoPE), un framework di addestramento che affronta il problema dello zero-advantage in Group Relative Policy Optimization (GRPO) per i grandi modelli linguistici. Quando tutti i rollout campionati per una query falliscono, GRPO perde segnali di addestramento efficaci. LoPE introduce perturbazioni nello spazio dei prompt non correlate al compito per spostare la distribuzione di output del modello, consentendo un'esplorazione del ragionamento più ampia senza aumentare i budget di campionamento. Il metodo mira a migliorare i tassi di successo in compiti di ragionamento complessi.

Fatti principali

1. GRPO soffre del problema dello zero-advantage quando tutti i rollout falliscono
2. LoPE utilizza perturbazioni nello spazio dei prompt per sbloccare l'esplorazione
3. LoPE è un framework di addestramento semplice ma efficace
4. Le perturbazioni non correlate al compito spostano la distribuzione di output
5. LoPE mira a migliorare i tassi di successo in compiti complessi
6. Il metodo non richiede un aumento del budget di campionamento
7. Articolo pubblicato su arXiv con ID 2605.05566
8. LoPE sta per Lorem Perturbation for Exploration

LoPE: La perturbazione del prompt potenzia il ragionamento LLM in GRPO

Fatti principali

Entità

Istituzioni

Fonti