CHASD: Nuovo metodo riduce le allucinazioni nei modelli visione-linguaggio
Un nuovo framework chiamato Contrastive Hallucination-Aware Step-wise Decoding (CHASD) è stato introdotto dai ricercatori per minimizzare le allucinazioni di oggetti nei Large Vision-Language Models (LVLMs) senza necessità di addestramento. Le allucinazioni sorgono quando i pregiudizi linguistici oscurano dati visivi inadeguati o disallineati. Gli attuali approcci di decodifica contrastiva implementano perturbazioni globali o attivano un ramo negativo a ogni passo, il che può disturbare informazioni visive preziose. I ricercatori hanno notato che il rischio di allucinazioni è sia transitorio che specifico per token: l'attenzione visiva varia tra i token generati, alcuni dei quali sono prodotti con sicurezza e non necessitano di aggiustamenti. CHASD offre una 'calibrazione su richiesta', applicando la decodifica contrastiva selettivamente quando i rischi di allucinazione sono elevati. Questo metodo utilizza una strategia basata sull'incertezza per l'intervento. Lo studio è disponibile su arXiv (2605.23344v1) ed è stato segnalato come invio incrociato.
Fatti principali
- 1. CHASD sta per Contrastive Hallucination-Aware Step-wise Decoding.
- 2. È un framework di inferenza senza addestramento per LVLMs.
- 3. Le allucinazioni nei LVLMs sono causate da prior linguistici che dominano l'evidenza visiva.
- 4. I metodi di decodifica contrastiva esistenti usano perturbazioni globali o rami negativi costanti.
- 5. I rischi di allucinazione sono transitori e specifici per token.
- 6. CHASD esegue la calibrazione su richiesta basata sull'incertezza.
- 7. L'articolo è disponibile su arXiv con ID 2605.23344v1.
- 8. Il tipo di annuncio è incrociato.
Entità
Istituzioni
- arXiv