Apprendimento per Rinforzo con Ricompense Verificabili Migliorato dall'Amplificazione di Eventi Rari
Un nuovo articolo su arXiv propone un metodo per migliorare l'apprendimento per rinforzo con ricompense verificabili (RLVR) per addestrare modelli linguistici di grandi dimensioni su compiti di ragionamento deterministici. Gli autori sostengono che una selezione efficace dei prompt dovrebbe fornire sia ancore positive affidabili che segnali di apprendimento negativi espliciti da fallimenti rari. Introducono l'accoppiamento positivo-negativo, campionando un prompt difficile ma risolvibile e uno facile ma fragile, e il Weighted GRPO per ripesare i risultati binari. Questo approccio mira a stabilizzare l'ottimizzazione e migliorare le prestazioni di trasferimento.
Fatti principali
- Titolo dell'articolo: Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing
- ID arXiv: 2602.03452
- Tipo di annuncio: replace-cross
- Si concentra sull'apprendimento per rinforzo con ricompense verificabili (RLVR)
- Propone l'accoppiamento positivo-negativo per la selezione dei prompt
- Introduce l'algoritmo Weighted GRPO
- Mira a migliorare la stabilità dell'addestramento e il trasferimento
- Affronta i limiti della selezione dei prompt basata sulla varianza
Entità
Istituzioni
- arXiv