VCap: Ricompense Ipergeometriche Migliorano la Didascalia Visiva
Un nuovo metodo di apprendimento per rinforzo per la didascalia visiva, VCap, utilizza una ricompensa Witness-Adjudicator per migliorare l'accuratezza fattuale. L'approccio abbina una didascalia di riferimento (testimone) con segnali visivi (arbitro) per verificare la coerenza fattuale, raggiungendo una precisione a livello di distribuzione ipergeometrica. Ciò consente un apprendimento efficace anche da riferimenti imperfetti, affrontando i limiti dei progetti di ricompensa esistenti che mancano di una verifica fattuale granulare. Il metodo mira a omissioni e allucinazioni nei modelli linguistici multimodali di grandi dimensioni (MLLM).
Fatti principali
- VCap è una ricompensa Witness-Adjudicator per la didascalia visiva.
- Abbina una didascalia di riferimento (testimone) con un segnale visivo (arbitro).
- Il segnale di ricompensa ha una precisione a livello di distribuzione ipergeometrica.
- Affronta omissioni e allucinazioni nei MLLM.
- Consente l'apprendimento da riferimenti imperfetti.
- I progetti di ricompensa esistenti mancano di una verifica fattuale granulare.
- Pubblicato su arXiv con ID 2605.28023.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv