Selezione di Prove Visive Riformulata per RAG Multimodale
Un nuovo framework ridefinisce la selezione di prove visive nella generazione aumentata da recupero multimodale (RAG) concentrandosi sull'utilità piuttosto che sulla similarità semantica. L'approccio, descritto in arXiv:2605.13277, tratta l'utilità delle prove come guadagno informativo sulla distribuzione di output del modello. Per affrontare l'intrattabilità, gli autori introducono una variabile latente di utilità e dimostrano l'equivalenza con l'utilità nello spazio delle risposte sotto ipotesi ragionevoli. Un metodo senza training e accelerato da surrogati utilizza modelli multimodali leggeri per stimare l'utilità in modo efficiente. Esperimenti su MRAG-Bench e Visual-RAG attraverso più famiglie di modelli dimostrano l'efficacia.
Fatti principali
- arXiv:2605.13277 propone un approccio orientato all'utilità per la selezione di prove visive.
- I metodi esistenti si basano sulla rilevanza semantica o sulla similarità superficiale.
- L'utilità delle prove è definita come guadagno informativo sulla distribuzione di output.
- Viene introdotta una variabile latente di utilità per superare l'intrattabilità dell'ottimizzazione nello spazio delle risposte.
- Classificare per guadagno informativo sulla variabile latente equivale all'utilità nello spazio delle risposte.
- Il framework è senza training e accelerato da surrogati.
- Modelli multimodali leggeri stimano l'utilità delle prove.
- Valutato su MRAG-Bench e Visual-RAG attraverso più famiglie di modelli.
Entità
—