Il dataset VG-CoT migliora il ragionamento visivo nei LVLM

ai-technology · 2026-04-25

I ricercatori hanno introdotto il dataset Visual Grounding Chain-of-Thought (VG-CoT) per migliorare il ragionamento visivo affidabile nei Large Vision-Language Models (LVLM). Il dataset collega esplicitamente ogni passaggio del ragionamento a prove visive reali all'interno delle immagini, affrontando le limitazioni dei dataset esistenti che soffrono di problemi di scalabilità dovuti all'annotazione manuale e alla mancanza di allineamento tra ragionamento multi-step e regioni dell'immagine. VG-CoT è costruito utilizzando un pipeline completamente automatizzato in tre fasi: primo, le prove visive a livello di oggetto e di testo vengono estratte tramite modelli di rilevamento e OCR all'avanguardia; secondo, il ragionamento fondato passo dopo passo viene generato con GPT-4o; terzo, il grounding viene perfezionato attraverso un processo di rilevamento open-set guidato dalla logica. Un nuovo benchmark accompagna il dataset per valutare l'affidabilità del modello. Il lavoro è descritto in un articolo su arXiv (arXiv:2604.21396).

Fatti principali

Il dataset VG-CoT collega i passaggi del ragionamento a prove visive nelle immagini.
Il dataset utilizza un pipeline completamente automatizzato in tre fasi.
Il pipeline include rilevamento, OCR, GPT-4o e rilevamento open-set.
Viene introdotto un nuovo benchmark per l'affidabilità.
Articolo disponibile su arXiv: 2604.21396.
Affronta i problemi di scalabilità nei dataset esistenti.
Si concentra su LVLM e ragionamento visivo.
Pubblicato come annuncio cross-type.

Il dataset VG-CoT migliora il ragionamento visivo nei LVLM

Fatti principali

Entità

Istituzioni

Fonti