Il framework CGC potenzia la comprensione multi-immagine a grana fine negli MLLM
I ricercatori propongono Compositional Grounded Contrast (CGC), un framework a basso costo per migliorare la comprensione multi-immagine a grana fine nei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). CGC affronta l'allucinazione spaziale, la dispersione dell'attenzione e i fallimenti di costanza degli oggetti costruendo istanze di addestramento multi-immagine composizionali a partire da annotazioni di grounding su singola immagine esistenti. Utilizza il Contrasto Inter-Immagine e il Contrasto Intra-Immagine per introdurre contesti distrattori semanticamente disaccoppiati e campioni correlati tra viste. Un Reward Spaziale Basato su Regole all'interno del framework GRPO migliora ulteriormente il grounding dell'immagine sorgente. Il metodo evita costose annotazioni umane o generazione su larga scala di dati chain-of-thought.
Fatti principali
- CGC sta per Compositional Grounded Contrast.
- Mira alla comprensione multi-immagine a grana fine negli MLLM.
- Affronta l'allucinazione spaziale, la dispersione dell'attenzione e i fallimenti di costanza degli oggetti.
- Utilizza il Contrasto Inter-Immagine e il Contrasto Intra-Immagine.
- Si basa su annotazioni di grounding su singola immagine esistenti.
- Introduce un Reward Spaziale Basato su Regole all'interno del framework GRPO.
- Evita costose annotazioni umane o generazione su larga scala di dati CoT.
- Pubblicato su arXiv con ID 2604.22498.
Entità
Istituzioni
- arXiv