Attribuzione del Contesto tramite Ottimizzazione Multi-Armed Bandit
Un nuovo framework formula l'attribuzione del contesto nella generazione aumentata da recupero come un problema combinatorio di multi-armed bandit. Il Linear Thompson Sampling identifica segmenti di contesto influenti minimizzando le query del modello. La funzione di ricompensa utilizza le log-probabilità dei token per misurare il supporto del segmento alla risposta, applicabile a modelli open-source e API black-box. A differenza di SHAP e altri metodi basati su perturbazioni, questo approccio prioritizza adattivamente sottoinsiemi informativi basati su stime posteriori, riducendo i costi computazionali. Esperimenti su più benchmark QA mostrano che il metodo raggiunge miglioramenti significativi in accuratezza ed efficienza dell'attribuzione.
Fatti principali
- arXiv:2506.19977v2
- Tipo di annuncio: sostituzione
- Attribuzione del contesto formulata come problema combinatorio di multi-armed bandit
- Utilizza Linear Thompson Sampling
- Funzione di ricompensa sfrutta le log-probabilità dei token
- Applicabile a modelli open-source e basati su API black-box
- Prioritizza adattivamente sottoinsiemi informativi basati su stime posteriori
- Esperimenti su più benchmark QA
Entità
Istituzioni
- arXiv