EAPO: Ottimizzazione Adattiva delle Politiche Basata sull'Entropia per il RL in QA a Risposta Aperta

other · 2026-05-28

Un nuovo articolo su arXiv (2605.27846) introduce EAPO, un metodo di Ottimizzazione Adattiva delle Politiche basato sull'Entropia per l'apprendimento per rinforzo in domande a risposta aperta. Gli autori studiano sistematicamente i ruoli dei campioni positivi e negativi, scoprendo che i campioni negativi governano la diversità delle risposte e il limite superiore delle prestazioni, mentre i campioni positivi determinano la qualità delle risposte e la stabilità della convergenza. EAPO calcola in modo adattivo i coefficienti di ponderazione per i campioni positivi basandosi sul rapporto tra l'entropia corrente della politica e l'entropia iniziale. Il lavoro affronta le limitazioni degli approcci RLVR esistenti che utilizzano pesi fissi e non riescono a generalizzare a QA a risposta aperta.

Fatti principali

Articolo arXiv 2605.27846
EAPO: Ottimizzazione Adattiva delle Politiche basata sull'Entropia
Si concentra su domande a risposta aperta
I campioni negativi governano la diversità e il limite superiore
I campioni positivi determinano la qualità e la stabilità
Ponderazione adattiva basata sul rapporto di entropia
Affronta le limitazioni dei pesi fissi in RLVR
Pubblicato su arXiv

EAPO: Ottimizzazione Adattiva delle Politiche Basata sull'Entropia per il RL in QA a Risposta Aperta

Fatti principali

Entità

Istituzioni

Fonti