EAPO: Ottimizzazione Adattiva delle Politiche Basata sull'Entropia per il RL in QA a Risposta Aperta
Un nuovo articolo su arXiv (2605.27846) introduce EAPO, un metodo di Ottimizzazione Adattiva delle Politiche basato sull'Entropia per l'apprendimento per rinforzo in domande a risposta aperta. Gli autori studiano sistematicamente i ruoli dei campioni positivi e negativi, scoprendo che i campioni negativi governano la diversità delle risposte e il limite superiore delle prestazioni, mentre i campioni positivi determinano la qualità delle risposte e la stabilità della convergenza. EAPO calcola in modo adattivo i coefficienti di ponderazione per i campioni positivi basandosi sul rapporto tra l'entropia corrente della politica e l'entropia iniziale. Il lavoro affronta le limitazioni degli approcci RLVR esistenti che utilizzano pesi fissi e non riescono a generalizzare a QA a risposta aperta.
Fatti principali
- Articolo arXiv 2605.27846
- EAPO: Ottimizzazione Adattiva delle Politiche basata sull'Entropia
- Si concentra su domande a risposta aperta
- I campioni negativi governano la diversità e il limite superiore
- I campioni positivi determinano la qualità e la stabilità
- Ponderazione adattiva basata sul rapporto di entropia
- Affronta le limitazioni dei pesi fissi in RLVR
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv