VGR: Un Nuovo MLLM per il Ragionamento Visivo Fine-Grained

ai-technology · 2026-05-04

I ricercatori hanno introdotto VGR (Visual Grounded Reasoning), un nuovo modello linguistico multimodale di grandi dimensioni (MLLM) progettato per superare i limiti degli approcci di ragionamento a catena di pensiero esistenti che operano esclusivamente nello spazio linguistico e sono confinati ai domini della matematica o della scienza. VGR migliora la percezione visiva fine-grained rilevando prima le regioni dell'immagine rilevanti e poi fornendo risposte precise basate su tali regioni, anziché ragionare solo nel linguaggio. Per addestrare VGR, il team ha creato un dataset di apprendimento supervisionato su larga scala chiamato VGR-SFT, che contiene dati di ragionamento che combinano grounding visivo e deduzione linguistica. Il paper è disponibile su arXiv con identificativo 2506.11991.

Fatti principali

VGR è un nuovo modello linguistico multimodale di grandi dimensioni (MLLM) per il ragionamento, con capacità di percezione visiva fine-grained potenziate.
Gli approcci esistenti di ragionamento a catena di pensiero multimodale si basano sul ragionamento in puro spazio linguistico, soffrendo di bias linguistico e limitati ai domini della matematica o della scienza.
VGR rileva prima le regioni dell'immagine rilevanti che possono aiutare a risolvere i problemi, poi fornisce risposte precise basate sulle regioni dell'immagine riprodotte.
È stato creato un dataset SFT su larga scala chiamato VGR-SFT, contenente dati di ragionamento con grounding visivo e deduzione linguistica misti.
Il paper è stato annunciato su arXiv con identificativo 2506.11991.
La ricerca affronta i limiti nei compiti di ragionamento visivo complessi che richiedono una comprensione completa dei dettagli dell'immagine.
VGR si differenzia dai tradizionali MLLM che rispondono a domande o ragionano esclusivamente nello spazio linguistico.
L'approccio mira a gestire compiti di ragionamento visivo complessi oltre i domini della matematica e della scienza.

VGR: Un Nuovo MLLM per il Ragionamento Visivo Fine-Grained

Fatti principali

Entità

Istituzioni

Fonti