ClaimDiff-RL: RL per Didascalie a Grana Fine tramite Confronto di Affermazioni Visive

ai-technology · 2026-05-22

Il framework recentemente introdotto, ClaimDiff-RL, affronta il problema della granularità della ricompensa nell'apprendimento per rinforzo specificamente per la didascalia di immagini in forma lunga. Le tecniche esistenti valutano le didascalie complete nel loro insieme, mascherando errori localizzati all'interno di specifiche affermazioni visive. Al contrario, ClaimDiff-RL utilizza differenze atomiche di affermazioni condizionate da un riferimento come unità di ricompensa. Un valutatore multimodale identifica discrepanze visivamente fondate tra una didascalia dell'attore e una didascalia di riferimento, verifica ciascuna rispetto all'immagine corrispondente, categorizza i tipi di errore e i livelli di gravità utilizzando vocabolario aperto e genera statistiche per ciascuna differenza per comporre la ricompensa. Questo metodo distingue tra allucinazioni e omissioni, consentendo un'ottimizzazione precisa sia dell'accuratezza fattuale che della copertura.

Fatti principali

ClaimDiff-RL è introdotto per risolvere la granularità della ricompensa nell'RL per la didascalia di immagini.
I metodi attuali comprimono errori locali in un unico segnale a livello di sequenza.
Il framework utilizza differenze atomiche di affermazioni condizionate da un riferimento come unità di ricompensa.
Un giudice multimodale enumera le differenze visivamente fondate tra le didascalie.
Ogni differenza viene verificata rispetto all'immagine.
Vengono assegnati tipi di errore e livelli di gravità a vocabolario aperto.
Vengono prodotte statistiche per differenza per la composizione della ricompensa.
L'approccio separa l'allucinazione dall'omissione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21