ARTFEED — Contemporary Art Intelligence

GRIP-VLM: Apprendimento per Rinforzo per un Potatura Efficiente dei Modelli Visione-Linguaggio

ai-technology · 2026-05-14

I ricercatori hanno introdotto GRIP-VLM, un nuovo framework che utilizza l'apprendimento per rinforzo per potare i token visivi nei Modelli Visione-Linguaggio (VLM). I metodi tradizionali di potatura si basano su rilassamenti a gradiente continuo, che spesso rimangono bloccati in minimi locali subottimali a causa della natura discreta e non convessa della potatura dei token. GRIP-VLM formula la potatura come un Processo Decisionale di Markov e impiega l'Ottimizzazione delle Politiche di Gruppo (GRPO) con riscaldamento supervisionato per esplorare direttamente lo spazio di selezione discreto. Il metodo include uno scorer consapevole del budget per gestire i tassi di compressione. Questo approccio mira a ridurre il carico computazionale dell'elaborazione di un numero massiccio di token visivi nei VLM, rendendoli più efficienti senza sacrificare le prestazioni.

Fatti principali

  • GRIP-VLM utilizza l'apprendimento per rinforzo per la potatura dei token visivi nei VLM.
  • I metodi tradizionali di potatura si basano su rilassamenti a gradiente continuo.
  • La potatura dei token è un problema combinatorio discreto e non convesso.
  • GRIP-VLM formula la potatura come un Processo Decisionale di Markov.
  • Impiega l'Ottimizzazione delle Politiche di Gruppo (GRPO) con riscaldamento supervisionato.
  • Il framework include uno scorer consapevole del budget.
  • Il metodo mira a ridurre il carico computazionale nei VLM.
  • L'articolo è disponibile su arXiv con ID 2605.13375.

Entità

Istituzioni

  • arXiv

Fonti