Catena di Prove: Attribuzione Visiva per RAG Iterativo
I ricercatori propongono Catena di Prove (CoE), un framework di attribuzione visiva per Retrieval-Augmented Generation Iterativa (iRAG) che utilizza modelli linguistico-visivi per ragionare direttamente su screenshot di documenti recuperati. CoE affronta le citazioni testuali a grana grossa e la perdita semantica visiva derivante dall'analisi di documenti visivamente ricchi come slide e PDF. Produce riquadri di delimitazione precisi per le prove, eliminando l'analisi specifica del formato. Il sistema è indipendente dal recuperatore e mira a migliorare il question answering multi-hop preservando la logica spaziale e gli indizi di layout.
Fatti principali
- 1. Catena di Prove (CoE) è un framework di attribuzione visiva per iRAG.
- 2. CoE utilizza modelli linguistico-visivi per ragionare su screenshot di documenti.
- 3. Affronta le citazioni testuali a grana grossa e la perdita semantica visiva.
- 4. CoE produce riquadri di delimitazione precisi per le prove.
- 5. È indipendente dal recuperatore ed elimina l'analisi specifica del formato.
- 6. Il framework è mirato al question answering multi-hop.
- 7. CoE preserva la logica spaziale e gli indizi di layout da documenti visivamente ricchi.
- 8. La ricerca è pubblicata su arXiv con ID 2605.01284.
Entità
Istituzioni
- arXiv