VGR: Un Nuovo MLLM per il Ragionamento Visivo Fine-Grained
I ricercatori hanno introdotto VGR (Visual Grounded Reasoning), un nuovo modello linguistico multimodale di grandi dimensioni (MLLM) progettato per superare i limiti degli approcci di ragionamento a catena di pensiero esistenti che operano esclusivamente nello spazio linguistico e sono confinati ai domini della matematica o della scienza. VGR migliora la percezione visiva fine-grained rilevando prima le regioni dell'immagine rilevanti e poi fornendo risposte precise basate su tali regioni, anziché ragionare solo nel linguaggio. Per addestrare VGR, il team ha creato un dataset di apprendimento supervisionato su larga scala chiamato VGR-SFT, che contiene dati di ragionamento che combinano grounding visivo e deduzione linguistica. Il paper è disponibile su arXiv con identificativo 2506.11991.
Fatti principali
- VGR è un nuovo modello linguistico multimodale di grandi dimensioni (MLLM) per il ragionamento, con capacità di percezione visiva fine-grained potenziate.
- Gli approcci esistenti di ragionamento a catena di pensiero multimodale si basano sul ragionamento in puro spazio linguistico, soffrendo di bias linguistico e limitati ai domini della matematica o della scienza.
- VGR rileva prima le regioni dell'immagine rilevanti che possono aiutare a risolvere i problemi, poi fornisce risposte precise basate sulle regioni dell'immagine riprodotte.
- È stato creato un dataset SFT su larga scala chiamato VGR-SFT, contenente dati di ragionamento con grounding visivo e deduzione linguistica misti.
- Il paper è stato annunciato su arXiv con identificativo 2506.11991.
- La ricerca affronta i limiti nei compiti di ragionamento visivo complessi che richiedono una comprensione completa dei dettagli dell'immagine.
- VGR si differenzia dai tradizionali MLLM che rispondono a domande o ragionano esclusivamente nello spazio linguistico.
- L'approccio mira a gestire compiti di ragionamento visivo complessi oltre i domini della matematica e della scienza.
Entità
Istituzioni
- arXiv