Il Gradiente di Policy con Assegnazione di Credito Migliora il Recupero in Fase Iniziale nel Ranking a Due Stadi
Un nuovo metodo di apprendimento per rinforzo, il gradiente di policy con assegnazione di credito (CA-PG), affronta la sfida della scalabilità nell'addestramento dei ranker di fase iniziale (ESR) nei sistemi di ranking a due stadi utilizzati nei sistemi di ricerca, raccomandazione e generazione aumentata da recupero (RAG) su larga scala. Il gradiente di policy vanilla (V-PG) standard soffre di varianza esplosiva quando applicato a dimensioni di set di candidati rilevanti per l'uso pratico, poiché propaga gradienti alla probabilità congiunta dei set di candidati anziché ai singoli elementi. CA-PG calcola gradienti rispetto alla probabilità marginale che un elemento target appaia in qualsiasi set di candidati, riducendo così la varianza. L'approccio è dettagliato in arXiv:2605.26385v1.
Fatti principali
- I sistemi di ranking a due stadi sono composti da un ranker di fase iniziale (ESR) e un ranker di fase finale (LSR).
- L'ESR genera un set di candidati; l'LSR lo riordina.
- Il gradiente di policy vanilla (V-PG) non è scalabile per dimensioni pratiche di set di candidati a causa della varianza esplosiva.
- V-PG propaga il gradiente alla probabilità congiunta dei set di candidati, ignorando i contributi a livello di elemento.
- Il gradiente di policy con assegnazione di credito (CA-PG) calcola gradienti rispetto alla probabilità marginale che l'elemento target venga scelto.
- CA-PG mitiga i problemi di varianza nell'addestramento dell'ESR.
- Il metodo è applicabile a sistemi di ricerca, raccomandazione e RAG.
- L'articolo è disponibile su arXiv con ID 2605.26385.
Entità
Istituzioni
- arXiv