ARTFEED — Contemporary Art Intelligence

DocVAL: Distillazione del Ragionamento Spaziale per il VQA Documentale

ai-technology · 2026-05-25

I ricercatori propongono DocVAL, un framework di distillazione validata del chain-of-thought (CoT) per il visual question answering (VQA) documentale. DocVAL trasferisce il ragionamento spaziale esplicito da grandi modelli vision-language (VLM) insegnanti a VLM studenti compatti, affrontando il degrado della localizzazione nei modelli più piccoli. Il framework combina la supervisione spaziale CoT generata dall'insegnante, un validatore dual-mode basato su regole che filtra segnali di bassa qualità e fornisce feedback correttivo a livello di pixel, e una procedura di addestramento a due stadi guidata dalla validazione con raffinamento iterativo. Il lavoro mira a un'implementazione efficiente di VLM con un forte grounding spaziale in layout documentali complessi.

Fatti principali

  • DocVAL è un framework di distillazione validata del chain-of-thought per il VQA documentale.
  • Trasferisce il ragionamento spaziale da grandi VLM insegnanti a VLM studenti compatti.
  • Include un validatore dual-mode basato su regole per filtraggio e feedback correttivo.
  • Utilizza una procedura di addestramento a due stadi con raffinamento iterativo.
  • Mira a ridurre il costo e la latenza di inferenza mantenendo il grounding spaziale.
  • Affronta il degrado della localizzazione nei VLM compatti sotto fine-tuning standard.
  • Pubblicato su arXiv con ID 2511.22521.
  • Il tipo di annuncio è replace-cross.

Entità

Istituzioni

  • arXiv

Fonti