DocVAL: Distillazione del Ragionamento Spaziale per il VQA Documentale

ai-technology · 2026-05-25

I ricercatori propongono DocVAL, un framework di distillazione validata del chain-of-thought (CoT) per il visual question answering (VQA) documentale. DocVAL trasferisce il ragionamento spaziale esplicito da grandi modelli vision-language (VLM) insegnanti a VLM studenti compatti, affrontando il degrado della localizzazione nei modelli più piccoli. Il framework combina la supervisione spaziale CoT generata dall'insegnante, un validatore dual-mode basato su regole che filtra segnali di bassa qualità e fornisce feedback correttivo a livello di pixel, e una procedura di addestramento a due stadi guidata dalla validazione con raffinamento iterativo. Il lavoro mira a un'implementazione efficiente di VLM con un forte grounding spaziale in layout documentali complessi.

Fatti principali

DocVAL è un framework di distillazione validata del chain-of-thought per il VQA documentale.
Trasferisce il ragionamento spaziale da grandi VLM insegnanti a VLM studenti compatti.
Include un validatore dual-mode basato su regole per filtraggio e feedback correttivo.
Utilizza una procedura di addestramento a due stadi con raffinamento iterativo.
Mira a ridurre il costo e la latenza di inferenza mantenendo il grounding spaziale.
Affronta il degrado della localizzazione nei VLM compatti sotto fine-tuning standard.
Pubblicato su arXiv con ID 2511.22521.
Il tipo di annuncio è replace-cross.

DocVAL: Distillazione del Ragionamento Spaziale per il VQA Documentale

Fatti principali

Entità

Istituzioni

Fonti