ARTFEED — Contemporary Art Intelligence

Il dataset VG-CoT migliora il ragionamento visivo nei LVLM

ai-technology · 2026-04-25

I ricercatori hanno introdotto il dataset Visual Grounding Chain-of-Thought (VG-CoT) per migliorare il ragionamento visivo affidabile nei Large Vision-Language Models (LVLM). Il dataset collega esplicitamente ogni passaggio del ragionamento a prove visive reali all'interno delle immagini, affrontando le limitazioni dei dataset esistenti che soffrono di problemi di scalabilità dovuti all'annotazione manuale e alla mancanza di allineamento tra ragionamento multi-step e regioni dell'immagine. VG-CoT è costruito utilizzando un pipeline completamente automatizzato in tre fasi: primo, le prove visive a livello di oggetto e di testo vengono estratte tramite modelli di rilevamento e OCR all'avanguardia; secondo, il ragionamento fondato passo dopo passo viene generato con GPT-4o; terzo, il grounding viene perfezionato attraverso un processo di rilevamento open-set guidato dalla logica. Un nuovo benchmark accompagna il dataset per valutare l'affidabilità del modello. Il lavoro è descritto in un articolo su arXiv (arXiv:2604.21396).

Fatti principali

  • Il dataset VG-CoT collega i passaggi del ragionamento a prove visive nelle immagini.
  • Il dataset utilizza un pipeline completamente automatizzato in tre fasi.
  • Il pipeline include rilevamento, OCR, GPT-4o e rilevamento open-set.
  • Viene introdotto un nuovo benchmark per l'affidabilità.
  • Articolo disponibile su arXiv: 2604.21396.
  • Affronta i problemi di scalabilità nei dataset esistenti.
  • Si concentra su LVLM e ragionamento visivo.
  • Pubblicato come annuncio cross-type.

Entità

Istituzioni

  • arXiv

Fonti