ARTFEED — Contemporary Art Intelligence

EAPO: Ottimizzazione Adattiva delle Politiche Basata sull'Entropia per il RL in QA a Risposta Aperta

other · 2026-05-28

Un nuovo articolo su arXiv (2605.27846) introduce EAPO, un metodo di Ottimizzazione Adattiva delle Politiche basato sull'Entropia per l'apprendimento per rinforzo in domande a risposta aperta. Gli autori studiano sistematicamente i ruoli dei campioni positivi e negativi, scoprendo che i campioni negativi governano la diversità delle risposte e il limite superiore delle prestazioni, mentre i campioni positivi determinano la qualità delle risposte e la stabilità della convergenza. EAPO calcola in modo adattivo i coefficienti di ponderazione per i campioni positivi basandosi sul rapporto tra l'entropia corrente della politica e l'entropia iniziale. Il lavoro affronta le limitazioni degli approcci RLVR esistenti che utilizzano pesi fissi e non riescono a generalizzare a QA a risposta aperta.

Fatti principali

  • Articolo arXiv 2605.27846
  • EAPO: Ottimizzazione Adattiva delle Politiche basata sull'Entropia
  • Si concentra su domande a risposta aperta
  • I campioni negativi governano la diversità e il limite superiore
  • I campioni positivi determinano la qualità e la stabilità
  • Ponderazione adattiva basata sul rapporto di entropia
  • Affronta le limitazioni dei pesi fissi in RLVR
  • Pubblicato su arXiv

Entità

Istituzioni

  • arXiv

Fonti