L'ottimizzazione delle politiche guidata visivamente migliora il ragionamento VLM

ai-technology · 2026-05-25

Un nuovo framework chiamato Visually-Guided Policy Optimization (VGPO) affronta le carenze di fedeltà visiva nei modelli visione-linguaggio (VLM) durante l'apprendimento per rinforzo con ricompense verificabili (RLVR). Gli autori identificano due problemi chiave: attivazione sparsa dell'attenzione ai token visivi e oblio visivo temporale attraverso i passaggi di ragionamento. VGPO introduce un meccanismo di Compensazione dell'Attenzione Visiva che utilizza la similarità visiva per amplificare i segnali visivi e aumenta progressivamente le aspettative visive nei passaggi successivi. Inoltre, viene implementata una strategia di ri-pesatura dei vantaggi a doppia granularità lungo i passaggi intra-traiettoria. Il lavoro è pubblicato su arXiv con identificativo 2604.09349.

Fatti principali

VGPO sta per Visually-Guided Policy Optimization
RLVR è apprendimento per rinforzo con ricompense verificabili
VLM sono modelli visione-linguaggio
Il meccanismo di Compensazione dell'Attenzione Visiva utilizza la similarità visiva
Il ri-pesatura dei vantaggi a doppia granularità è applicato intra-traiettoria
ID articolo: arXiv:2604.09349
Tipo di annuncio: replace-cross
L'analisi empirica rivela oblio visivo temporale

L'ottimizzazione delle politiche guidata visivamente migliora il ragionamento VLM

Fatti principali

Entità

Istituzioni

Fonti