ARTFEED — Contemporary Art Intelligence

Nuovo Benchmark Diagnostica le Allucinazioni di Pixel-Grounding nei VLM

other · 2026-04-25

I ricercatori hanno introdotto il Counterfactual Segmentation Reasoning (CSR), un compito progettato per diagnosticare e mitigare le allucinazioni di pixel-grounding nei modelli di segmentazione Vision-Language (VLM). Questi modelli spesso producono maschere per oggetti errati o inesistenti, un problema trascurato dalle valutazioni esistenti basate su testo o etichette. Per supportare il CSR, il team ha curato HalluSegBench, il primo benchmark su larga scala per valutare le allucinazioni di segmentazione in espressioni referenti e ragionate. Il benchmark utilizza immagini controfattuali per testare se un modello è in grado di segmentare correttamente un oggetto referenziato in un'immagine fattuale e astenersi dalla segmentazione in una controparte controfattuale. Questo approccio rivela allucinazioni guidate dalla visione, che sono più impegnative e prevalenti di quanto precedentemente riconosciuto. Il lavoro è pubblicato su arXiv con il titolo "Counterfactual Segmentation Reasoning: Diagnosing and Mitigating Pixel-Grounding Hallucination" (arXiv:2506.21546).

Fatti principali

  • Il Counterfactual Segmentation Reasoning (CSR) è un nuovo compito per diagnosticare le allucinazioni di pixel-grounding.
  • HalluSegBench è il primo benchmark su larga scala per le allucinazioni di segmentazione.
  • Le valutazioni esistenti si basano su perturbazioni testuali o basate su etichette e trascurano l'impronta spaziale.
  • Il CSR richiede ai modelli di segmentare in immagini fattuali e astenersi in controparti controfattuali.
  • Le allucinazioni guidate dalla visione sono più impegnative e prevalenti di quanto si pensasse in precedenza.
  • La ricerca è pubblicata su arXiv con ID 2506.21546.
  • Il lavoro affronta le allucinazioni di pixel-grounding nei VLM di segmentazione.
  • Il benchmark utilizza immagini controfattuali per testare la robustezza del modello.

Entità

Istituzioni

  • arXiv

Fonti