VCap: Ricompense Ipergeometriche Migliorano la Didascalia Visiva

other · 2026-05-28

Un nuovo metodo di apprendimento per rinforzo per la didascalia visiva, VCap, utilizza una ricompensa Witness-Adjudicator per migliorare l'accuratezza fattuale. L'approccio abbina una didascalia di riferimento (testimone) con segnali visivi (arbitro) per verificare la coerenza fattuale, raggiungendo una precisione a livello di distribuzione ipergeometrica. Ciò consente un apprendimento efficace anche da riferimenti imperfetti, affrontando i limiti dei progetti di ricompensa esistenti che mancano di una verifica fattuale granulare. Il metodo mira a omissioni e allucinazioni nei modelli linguistici multimodali di grandi dimensioni (MLLM).

Fatti principali

VCap è una ricompensa Witness-Adjudicator per la didascalia visiva.
Abbina una didascalia di riferimento (testimone) con un segnale visivo (arbitro).
Il segnale di ricompensa ha una precisione a livello di distribuzione ipergeometrica.
Affronta omissioni e allucinazioni nei MLLM.
Consente l'apprendimento da riferimenti imperfetti.
I progetti di ricompensa esistenti mancano di una verifica fattuale granulare.
Pubblicato su arXiv con ID 2605.28023.
Il tipo di annuncio è cross.

VCap: Ricompense Ipergeometriche Migliorano la Didascalia Visiva

Fatti principali

Entità

Istituzioni

Fonti