L'ottimizzazione delle politiche guidata visivamente migliora il ragionamento VLM
Un nuovo framework chiamato Visually-Guided Policy Optimization (VGPO) affronta le carenze di fedeltà visiva nei modelli visione-linguaggio (VLM) durante l'apprendimento per rinforzo con ricompense verificabili (RLVR). Gli autori identificano due problemi chiave: attivazione sparsa dell'attenzione ai token visivi e oblio visivo temporale attraverso i passaggi di ragionamento. VGPO introduce un meccanismo di Compensazione dell'Attenzione Visiva che utilizza la similarità visiva per amplificare i segnali visivi e aumenta progressivamente le aspettative visive nei passaggi successivi. Inoltre, viene implementata una strategia di ri-pesatura dei vantaggi a doppia granularità lungo i passaggi intra-traiettoria. Il lavoro è pubblicato su arXiv con identificativo 2604.09349.
Fatti principali
- VGPO sta per Visually-Guided Policy Optimization
- RLVR è apprendimento per rinforzo con ricompense verificabili
- VLM sono modelli visione-linguaggio
- Il meccanismo di Compensazione dell'Attenzione Visiva utilizza la similarità visiva
- Il ri-pesatura dei vantaggi a doppia granularità è applicato intra-traiettoria
- ID articolo: arXiv:2604.09349
- Tipo di annuncio: replace-cross
- L'analisi empirica rivela oblio visivo temporale
Entità
Istituzioni
- arXiv