Il framework CGC potenzia la comprensione multi-immagine a grana fine negli MLLM

ai-technology · 2026-04-27

I ricercatori propongono Compositional Grounded Contrast (CGC), un framework a basso costo per migliorare la comprensione multi-immagine a grana fine nei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). CGC affronta l'allucinazione spaziale, la dispersione dell'attenzione e i fallimenti di costanza degli oggetti costruendo istanze di addestramento multi-immagine composizionali a partire da annotazioni di grounding su singola immagine esistenti. Utilizza il Contrasto Inter-Immagine e il Contrasto Intra-Immagine per introdurre contesti distrattori semanticamente disaccoppiati e campioni correlati tra viste. Un Reward Spaziale Basato su Regole all'interno del framework GRPO migliora ulteriormente il grounding dell'immagine sorgente. Il metodo evita costose annotazioni umane o generazione su larga scala di dati chain-of-thought.

Fatti principali

CGC sta per Compositional Grounded Contrast.
Mira alla comprensione multi-immagine a grana fine negli MLLM.
Affronta l'allucinazione spaziale, la dispersione dell'attenzione e i fallimenti di costanza degli oggetti.
Utilizza il Contrasto Inter-Immagine e il Contrasto Intra-Immagine.
Si basa su annotazioni di grounding su singola immagine esistenti.
Introduce un Reward Spaziale Basato su Regole all'interno del framework GRPO.
Evita costose annotazioni umane o generazione su larga scala di dati CoT.
Pubblicato su arXiv con ID 2604.22498.

Il framework CGC potenzia la comprensione multi-immagine a grana fine negli MLLM

Fatti principali

Entità

Istituzioni

Fonti