Attribuzione del Contesto tramite Ottimizzazione Multi-Armed Bandit

ai-technology · 2026-04-24

Un nuovo framework formula l'attribuzione del contesto nella generazione aumentata da recupero come un problema combinatorio di multi-armed bandit. Il Linear Thompson Sampling identifica segmenti di contesto influenti minimizzando le query del modello. La funzione di ricompensa utilizza le log-probabilità dei token per misurare il supporto del segmento alla risposta, applicabile a modelli open-source e API black-box. A differenza di SHAP e altri metodi basati su perturbazioni, questo approccio prioritizza adattivamente sottoinsiemi informativi basati su stime posteriori, riducendo i costi computazionali. Esperimenti su più benchmark QA mostrano che il metodo raggiunge miglioramenti significativi in accuratezza ed efficienza dell'attribuzione.

Fatti principali

arXiv:2506.19977v2
Tipo di annuncio: sostituzione
Attribuzione del contesto formulata come problema combinatorio di multi-armed bandit
Utilizza Linear Thompson Sampling
Funzione di ricompensa sfrutta le log-probabilità dei token
Applicabile a modelli open-source e basati su API black-box
Prioritizza adattivamente sottoinsiemi informativi basati su stime posteriori
Esperimenti su più benchmark QA

Attribuzione del Contesto tramite Ottimizzazione Multi-Armed Bandit

Fatti principali

Entità

Istituzioni

Fonti