Nuovo Benchmark Diagnostica le Allucinazioni di Pixel-Grounding nei VLM
I ricercatori hanno introdotto il Counterfactual Segmentation Reasoning (CSR), un compito progettato per diagnosticare e mitigare le allucinazioni di pixel-grounding nei modelli di segmentazione Vision-Language (VLM). Questi modelli spesso producono maschere per oggetti errati o inesistenti, un problema trascurato dalle valutazioni esistenti basate su testo o etichette. Per supportare il CSR, il team ha curato HalluSegBench, il primo benchmark su larga scala per valutare le allucinazioni di segmentazione in espressioni referenti e ragionate. Il benchmark utilizza immagini controfattuali per testare se un modello è in grado di segmentare correttamente un oggetto referenziato in un'immagine fattuale e astenersi dalla segmentazione in una controparte controfattuale. Questo approccio rivela allucinazioni guidate dalla visione, che sono più impegnative e prevalenti di quanto precedentemente riconosciuto. Il lavoro è pubblicato su arXiv con il titolo "Counterfactual Segmentation Reasoning: Diagnosing and Mitigating Pixel-Grounding Hallucination" (arXiv:2506.21546).
Fatti principali
- Il Counterfactual Segmentation Reasoning (CSR) è un nuovo compito per diagnosticare le allucinazioni di pixel-grounding.
- HalluSegBench è il primo benchmark su larga scala per le allucinazioni di segmentazione.
- Le valutazioni esistenti si basano su perturbazioni testuali o basate su etichette e trascurano l'impronta spaziale.
- Il CSR richiede ai modelli di segmentare in immagini fattuali e astenersi in controparti controfattuali.
- Le allucinazioni guidate dalla visione sono più impegnative e prevalenti di quanto si pensasse in precedenza.
- La ricerca è pubblicata su arXiv con ID 2506.21546.
- Il lavoro affronta le allucinazioni di pixel-grounding nei VLM di segmentazione.
- Il benchmark utilizza immagini controfattuali per testare la robustezza del modello.
Entità
Istituzioni
- arXiv