Progettazione di Politiche di Logging per Minimizzare l'Errore di Valutazione Off-Policy
Un recente articolo pubblicato su arXiv (2605.15108) affronta la sfida di creare politiche di logging per la valutazione off-policy (OPE), che valuta l'efficacia di una politica target, come un sistema di raccomandazione, utilizzando dati generati da una politica di logging diversa. Gli autori identificano un compromesso cruciale tra ricompensa e copertura: mentre concentrare la probabilità su azioni ad alta ricompensa può ridurre la varianza, potrebbe trascurare segnali importanti da azioni che la politica target potrebbe intraprendere. Introducono un quadro completo per la progettazione di politiche di logging e derivano strategie ottimali in tre scenari informativi chiave: (i) quando la politica target e la distribuzione delle ricompense sono note, (ii) quando sono sconosciute, e (iii) quando sono parzialmente note attraverso informazioni a priori o stime rumorose al momento del logging. I loro risultati offrono consigli pratici per le aziende che selezionano politiche di logging per ridurre l'errore di OPE.
Fatti principali
- Articolo arXiv:2605.15108 sulla valutazione off-policy (OPE)
- Si concentra sulla progettazione di politiche di logging per minimizzare l'errore di OPE
- Identifica il compromesso ricompensa-copertura nella progettazione della politica di logging
- Propone un quadro unificante per la progettazione di politiche di logging
- Deriva politiche ottimali per regimi noti, sconosciuti e parzialmente noti
- La politica target e la distribuzione delle ricompense sono note nel regime (i)
- La politica target e la distribuzione delle ricompense sono sconosciute nel regime (ii)
- Parzialmente note attraverso a priori o stime rumorose nel regime (iii)
Entità
Istituzioni
- arXiv