GRIP-VLM: Apprendimento per Rinforzo per un Potatura Efficiente dei Modelli Visione-Linguaggio

ai-technology · 2026-05-14

I ricercatori hanno introdotto GRIP-VLM, un nuovo framework che utilizza l'apprendimento per rinforzo per potare i token visivi nei Modelli Visione-Linguaggio (VLM). I metodi tradizionali di potatura si basano su rilassamenti a gradiente continuo, che spesso rimangono bloccati in minimi locali subottimali a causa della natura discreta e non convessa della potatura dei token. GRIP-VLM formula la potatura come un Processo Decisionale di Markov e impiega l'Ottimizzazione delle Politiche di Gruppo (GRPO) con riscaldamento supervisionato per esplorare direttamente lo spazio di selezione discreto. Il metodo include uno scorer consapevole del budget per gestire i tassi di compressione. Questo approccio mira a ridurre il carico computazionale dell'elaborazione di un numero massiccio di token visivi nei VLM, rendendoli più efficienti senza sacrificare le prestazioni.

Fatti principali

GRIP-VLM utilizza l'apprendimento per rinforzo per la potatura dei token visivi nei VLM.
I metodi tradizionali di potatura si basano su rilassamenti a gradiente continuo.
La potatura dei token è un problema combinatorio discreto e non convesso.
GRIP-VLM formula la potatura come un Processo Decisionale di Markov.
Impiega l'Ottimizzazione delle Politiche di Gruppo (GRPO) con riscaldamento supervisionato.
Il framework include uno scorer consapevole del budget.
Il metodo mira a ridurre il carico computazionale nei VLM.
L'articolo è disponibile su arXiv con ID 2605.13375.

GRIP-VLM: Apprendimento per Rinforzo per un Potatura Efficiente dei Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti