CHASD: Nuovo metodo riduce le allucinazioni nei modelli visione-linguaggio

ai-technology · 2026-05-25

Un nuovo framework chiamato Contrastive Hallucination-Aware Step-wise Decoding (CHASD) è stato introdotto dai ricercatori per minimizzare le allucinazioni di oggetti nei Large Vision-Language Models (LVLMs) senza necessità di addestramento. Le allucinazioni sorgono quando i pregiudizi linguistici oscurano dati visivi inadeguati o disallineati. Gli attuali approcci di decodifica contrastiva implementano perturbazioni globali o attivano un ramo negativo a ogni passo, il che può disturbare informazioni visive preziose. I ricercatori hanno notato che il rischio di allucinazioni è sia transitorio che specifico per token: l'attenzione visiva varia tra i token generati, alcuni dei quali sono prodotti con sicurezza e non necessitano di aggiustamenti. CHASD offre una 'calibrazione su richiesta', applicando la decodifica contrastiva selettivamente quando i rischi di allucinazione sono elevati. Questo metodo utilizza una strategia basata sull'incertezza per l'intervento. Lo studio è disponibile su arXiv (2605.23344v1) ed è stato segnalato come invio incrociato.

Fatti principali

1. CHASD sta per Contrastive Hallucination-Aware Step-wise Decoding.
2. È un framework di inferenza senza addestramento per LVLMs.
3. Le allucinazioni nei LVLMs sono causate da prior linguistici che dominano l'evidenza visiva.
4. I metodi di decodifica contrastiva esistenti usano perturbazioni globali o rami negativi costanti.
5. I rischi di allucinazione sono transitori e specifici per token.
6. CHASD esegue la calibrazione su richiesta basata sull'incertezza.
7. L'articolo è disponibile su arXiv con ID 2605.23344v1.
8. Il tipo di annuncio è incrociato.

CHASD: Nuovo metodo riduce le allucinazioni nei modelli visione-linguaggio

Fatti principali

Entità

Istituzioni

Fonti