Apprendimento per Rinforzo con Ricompense Verificabili Migliorato dall'Amplificazione di Eventi Rari

ai-technology · 2026-05-07

Un nuovo articolo su arXiv propone un metodo per migliorare l'apprendimento per rinforzo con ricompense verificabili (RLVR) per addestrare modelli linguistici di grandi dimensioni su compiti di ragionamento deterministici. Gli autori sostengono che una selezione efficace dei prompt dovrebbe fornire sia ancore positive affidabili che segnali di apprendimento negativi espliciti da fallimenti rari. Introducono l'accoppiamento positivo-negativo, campionando un prompt difficile ma risolvibile e uno facile ma fragile, e il Weighted GRPO per ripesare i risultati binari. Questo approccio mira a stabilizzare l'ottimizzazione e migliorare le prestazioni di trasferimento.

Fatti principali

Titolo dell'articolo: Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing
ID arXiv: 2602.03452
Tipo di annuncio: replace-cross
Si concentra sull'apprendimento per rinforzo con ricompense verificabili (RLVR)
Propone l'accoppiamento positivo-negativo per la selezione dei prompt
Introduce l'algoritmo Weighted GRPO
Mira a migliorare la stabilità dell'addestramento e il trasferimento
Affronta i limiti della selezione dei prompt basata sulla varianza

Apprendimento per Rinforzo con Ricompense Verificabili Migliorato dall'Amplificazione di Eventi Rari

Fatti principali

Entità

Istituzioni

Fonti