ARTFEED — Contemporary Art Intelligence

Catena di Prove: Attribuzione Visiva per RAG Iterativo

ai-technology · 2026-05-06

I ricercatori propongono Catena di Prove (CoE), un framework di attribuzione visiva per Retrieval-Augmented Generation Iterativa (iRAG) che utilizza modelli linguistico-visivi per ragionare direttamente su screenshot di documenti recuperati. CoE affronta le citazioni testuali a grana grossa e la perdita semantica visiva derivante dall'analisi di documenti visivamente ricchi come slide e PDF. Produce riquadri di delimitazione precisi per le prove, eliminando l'analisi specifica del formato. Il sistema è indipendente dal recuperatore e mira a migliorare il question answering multi-hop preservando la logica spaziale e gli indizi di layout.

Fatti principali

  • 1. Catena di Prove (CoE) è un framework di attribuzione visiva per iRAG.
  • 2. CoE utilizza modelli linguistico-visivi per ragionare su screenshot di documenti.
  • 3. Affronta le citazioni testuali a grana grossa e la perdita semantica visiva.
  • 4. CoE produce riquadri di delimitazione precisi per le prove.
  • 5. È indipendente dal recuperatore ed elimina l'analisi specifica del formato.
  • 6. Il framework è mirato al question answering multi-hop.
  • 7. CoE preserva la logica spaziale e gli indizi di layout da documenti visivamente ricchi.
  • 8. La ricerca è pubblicata su arXiv con ID 2605.01284.

Entità

Istituzioni

  • arXiv

Fonti