Il framework ABPO affronta il feedback bandit negli aggiornamenti continui dei recommender LLM

ai-technology · 2026-05-20

Per affrontare il bias di esposizione e l'ambiguità del feedback negli aggiornamenti continui dei recommender generativi basati su LLM (LLM-Rec), i ricercatori hanno introdotto l'Anchored Bandit Policy Optimization (ABPO). Il feedback dai log post-deploy è limitato a segnali bandit contestuali modellati dalla policy, dove i risultati sono annotati solo per gli elementi presentati da una policy di servizio precedente, generando informazioni incomplete e distorte. ABPO combina la group-relative policy optimization (GRPO) con un approccio diretto a questi bias integrando la raccomandazione esposta come anchor loggato all'interno di ogni gruppo di rollout GRPO, regolando la normalizzazione relativa al gruppo in base alle azioni della policy precedente. Lo studio è disponibile su arXiv con l'identificatore 2605.18899.

Fatti principali

I recommender generativi basati su LLM richiedono aggiornamenti continui post-deploy.
I log di deploy forniscono feedback bandit contestuali modellati dalla policy.
Il feedback include bias di esposizione e risposte assenti ambigue.
Il framework ABPO combina GRPO con un trattamento esplicito dei bias.
La raccomandazione esposta viene utilizzata come anchor loggato nei rollout GRPO.
La normalizzazione relativa al gruppo viene calibrata rispetto all'esposizione della policy precedente.
Articolo disponibile su arXiv:2605.18899.
Il tipo di annuncio è cross.

Il framework ABPO affronta il feedback bandit negli aggiornamenti continui dei recommender LLM

Fatti principali

Entità

Istituzioni

Fonti