GEASS: Metodo senza addestramento riduce le allucinazioni nei modelli visione-linguaggio
Un nuovo approccio chiamato GEASS (Gated Evidence-Aware Selective Steering) è stato introdotto dai ricercatori per affrontare l'allucinazione degli oggetti nei modelli visione-linguaggio (VLM) senza richiedere addestramento. I loro risultati indicano che la semplice incorporazione di didascalie autogenerate può influenzare negativamente le prestazioni, con una diminuzione di quasi 10 punti percentuali nell'accuratezza di Qwen2.5-VL-3B su HallusionBench. Questo declino può essere attribuito a due caratteristiche strutturali: le didascalie influenzano il ragionamento e le scelte lessicali del modello, e gli errori nelle didascalie sono distribuiti in modo disomogeneo, dove le omissioni superano significativamente le invenzioni, ma ogni invenzione ha un impatto individuale maggiore. GEASS determina la misura in cui il modello utilizza la didascalia regolandola in base alla confidenza del percorso pulito e aggiustandola in base alla riduzione dell'entropia. Questa tecnica è descritta in arXiv:2605.01733.
Fatti principali
- GEASS è un modulo senza addestramento per la mitigazione delle allucinazioni nei VLM.
- L'incorporazione ingenua di didascalie autogenerate può ridurre l'accuratezza di Qwen2.5-VL-3B su HallusionBench di quasi 10 punti.
- Gli errori nelle didascalie sono asimmetrici: le omissioni superano le invenzioni, ma le invenzioni hanno un impatto maggiore per istanza.
- GEASS regola il consumo della didascalia per query in base alla confidenza del percorso pulito e alla riduzione dell'entropia.
- La ricerca è pubblicata su arXiv con ID 2605.01733.
Entità
Istituzioni
- arXiv