ROVER: Plugin Leggero per il Ragionamento Multi-Immagine Grounded nei MLLM

ai-technology · 2026-05-28

I ricercatori hanno presentato ROVER, acronimo di Routing Object-centric Visual Evidence per il ragionamento multi-immagine grounded. Questo nuovo plugin compatto mira a migliorare i modelli linguistici multimodali di grandi dimensioni (MLLM). A differenza dei metodi esistenti che si basano su immagini ritagliate o regioni specifiche, che possono compromettere la comprensione complessiva della scena e aumentare i costi di decodifica, ROVER impiega una tripletta di token unica per ogni previsione di oggetto. Questo approccio non solo combina il contesto di ragionamento, ma integra anche segnali provenienti dalle immagini, semplificando il processo di indirizzamento delle prove visive globali senza necessità di supervisione complessa. La ricerca è disponibile su arXiv con il codice 2605.27959, affrontando i problemi nella selezione di caratteristiche visive adattive per i MLLM.

Fatti principali

ROVER è un plugin leggero e apprendibile per i MLLM.
Indirizza le prove visive globali per il ragionamento multi-immagine grounded.
I metodi esistenti utilizzano patch di immagini ritagliate o caratteristiche RoI, che indeboliscono la comprensione della scena.
ROVER inietta una tripletta di token specifica per passo per ogni previsione di grounding dell'oggetto.
La tripletta aggrega il contesto di ragionamento e distilla i segnali intra-immagine.
Non è richiesta supervisione a grana fine o euristiche complesse.
Pubblicato su arXiv con ID 2605.27959.
Mira a migliorare l'efficienza e la comprensione olistica nei MLLM.

ROVER: Plugin Leggero per il Ragionamento Multi-Immagine Grounded nei MLLM

Fatti principali

Entità

Istituzioni

Fonti