CAVE: Nuovo Metodo per il Ragionamento Visivo Frammentato nei VLM
Per affrontare il Ragionamento Visivo Frammentato nei modelli linguistico-visivi (VLM), i ricercatori hanno introdotto Credit Assignment for Visual Evidence (CAVE), un framework strutturato di ricompensa basato su GRPO. CAVE valuta le fasi intermedie del ragionamento attraverso tre indicatori: aggiornamento delle credenze, acquisizione di prove e controllo adattivo del focus. Inoltre, il team ha lanciato TRACER-Bench, un benchmark che comprende quattro dimensioni di ragionamento non locali e semanticamente simili, evidenziando prove intermedie essenziali. I risultati sperimentali indicano prestazioni migliorate nel ragionamento con prove visive frammentate.
Fatti principali
- CAVE è un metodo strutturato di ricompensa basato su GRPO.
- CAVE valuta i passaggi intermedi del ragionamento a livello di azione.
- Tre segnali del processo di ragionamento: aggiornamento delle credenze, acquisizione di prove, controllo adattivo del focus.
- TRACER-Bench copre quattro dimensioni di ragionamento non locali e semanticamente confondibili.
- TRACER-Bench fornisce prove intermedie chiave per supervisionare i percorsi di ragionamento.
- Il lavoro affronta il Ragionamento Visivo Frammentato nei VLM.
- I VLM hanno difficoltà a integrare informazioni visive non locali.
- Gli esperimenti mostrano che CAVE migliora le strategie di ragionamento visivo.
Entità
Istituzioni
- arXiv