ARTFEED — Contemporary Art Intelligence

Il framework CGC potenzia la comprensione multi-immagine a grana fine negli MLLM

ai-technology · 2026-04-27

I ricercatori propongono Compositional Grounded Contrast (CGC), un framework a basso costo per migliorare la comprensione multi-immagine a grana fine nei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). CGC affronta l'allucinazione spaziale, la dispersione dell'attenzione e i fallimenti di costanza degli oggetti costruendo istanze di addestramento multi-immagine composizionali a partire da annotazioni di grounding su singola immagine esistenti. Utilizza il Contrasto Inter-Immagine e il Contrasto Intra-Immagine per introdurre contesti distrattori semanticamente disaccoppiati e campioni correlati tra viste. Un Reward Spaziale Basato su Regole all'interno del framework GRPO migliora ulteriormente il grounding dell'immagine sorgente. Il metodo evita costose annotazioni umane o generazione su larga scala di dati chain-of-thought.

Fatti principali

  • CGC sta per Compositional Grounded Contrast.
  • Mira alla comprensione multi-immagine a grana fine negli MLLM.
  • Affronta l'allucinazione spaziale, la dispersione dell'attenzione e i fallimenti di costanza degli oggetti.
  • Utilizza il Contrasto Inter-Immagine e il Contrasto Intra-Immagine.
  • Si basa su annotazioni di grounding su singola immagine esistenti.
  • Introduce un Reward Spaziale Basato su Regole all'interno del framework GRPO.
  • Evita costose annotazioni umane o generazione su larga scala di dati CoT.
  • Pubblicato su arXiv con ID 2604.22498.

Entità

Istituzioni

  • arXiv

Fonti