Catena di Prove: Attribuzione Visiva per RAG Iterativo

ai-technology · 2026-05-06

I ricercatori propongono Catena di Prove (CoE), un framework di attribuzione visiva per Retrieval-Augmented Generation Iterativa (iRAG) che utilizza modelli linguistico-visivi per ragionare direttamente su screenshot di documenti recuperati. CoE affronta le citazioni testuali a grana grossa e la perdita semantica visiva derivante dall'analisi di documenti visivamente ricchi come slide e PDF. Produce riquadri di delimitazione precisi per le prove, eliminando l'analisi specifica del formato. Il sistema è indipendente dal recuperatore e mira a migliorare il question answering multi-hop preservando la logica spaziale e gli indizi di layout.

Fatti principali

1. Catena di Prove (CoE) è un framework di attribuzione visiva per iRAG.
2. CoE utilizza modelli linguistico-visivi per ragionare su screenshot di documenti.
3. Affronta le citazioni testuali a grana grossa e la perdita semantica visiva.
4. CoE produce riquadri di delimitazione precisi per le prove.
5. È indipendente dal recuperatore ed elimina l'analisi specifica del formato.
6. Il framework è mirato al question answering multi-hop.
7. CoE preserva la logica spaziale e gli indizi di layout da documenti visivamente ricchi.
8. La ricerca è pubblicata su arXiv con ID 2605.01284.

Catena di Prove: Attribuzione Visiva per RAG Iterativo

Fatti principali

Entità

Istituzioni

Fonti