ReCast: Nuovo framework RL migliora la raccomandazione generativa del 36,6%
Un nuovo framework chiamato ReCast è stato sviluppato da ricercatori per l'apprendimento per rinforzo nella raccomandazione generativa, concentrandosi su un approccio di segnale di apprendimento basato su riparazione e contrasto. Questo metodo affronta un notevole svantaggio del RL standard basato su gruppi, che presuppone che i gruppi di rollout campionati possano essere utilizzati immediatamente come segnali di apprendimento. Nel contesto della raccomandazione generativa a hit sparsi, molti gruppi campionati rimangono non apprendibili. ReCast migliora l'apprendibilità per i gruppi tutti zero e sostituisce la normalizzazione della ricompensa dell'intero gruppo con un aggiornamento contrastivo incentrato sul positivo più significativo e sul negativo più impegnativo. Mantiene intatto il framework RL esterno, alterando solo la costruzione dei segnali all'interno del gruppo e separa parzialmente la larghezza di ricerca del rollout dalla larghezza di aggiornamento lato attore. In vari compiti di raccomandazione generativa, ReCast supera costantemente OpenOneRec-RL, raggiungendo fino a un aumento relativo del 36,6% in Pass@1. Le sue prestazioni a budget corrispondente sono ancora più impressionanti, raggiungendo le prestazioni target di base con solo il 4,1% del budget. Il documento è disponibile su arXiv con identificatore 2604.22169.
Fatti principali
- ReCast è un framework di segnale di apprendimento basato su riparazione e contrasto per RL nella raccomandazione generativa.
- Affronta il collasso del RL generico basato su gruppi in scenari a hit sparsi.
- ReCast ripristina l'apprendibilità per i gruppi tutti zero e utilizza aggiornamenti contrastivi focalizzati sui confini.
- Modifica solo la costruzione dei segnali all'interno del gruppo, lasciando invariato il framework RL esterno.
- ReCast disaccoppia parzialmente la larghezza di ricerca del rollout dalla larghezza di aggiornamento lato attore.
- Supera OpenOneRec-RL fino al 36,6% di miglioramento relativo in Pass@1.
- ReCast raggiunge le prestazioni target di base con solo il 4,1% del budget.
- Il documento è pubblicato su arXiv con identificatore 2604.22169.
Entità
Istituzioni
- arXiv