GRIP-VLM: Apprendimento per Rinforzo per un Potatura Efficiente dei Modelli Visione-Linguaggio
I ricercatori hanno introdotto GRIP-VLM, un nuovo framework che utilizza l'apprendimento per rinforzo per potare i token visivi nei Modelli Visione-Linguaggio (VLM). I metodi tradizionali di potatura si basano su rilassamenti a gradiente continuo, che spesso rimangono bloccati in minimi locali subottimali a causa della natura discreta e non convessa della potatura dei token. GRIP-VLM formula la potatura come un Processo Decisionale di Markov e impiega l'Ottimizzazione delle Politiche di Gruppo (GRPO) con riscaldamento supervisionato per esplorare direttamente lo spazio di selezione discreto. Il metodo include uno scorer consapevole del budget per gestire i tassi di compressione. Questo approccio mira a ridurre il carico computazionale dell'elaborazione di un numero massiccio di token visivi nei VLM, rendendoli più efficienti senza sacrificare le prestazioni.
Fatti principali
- GRIP-VLM utilizza l'apprendimento per rinforzo per la potatura dei token visivi nei VLM.
- I metodi tradizionali di potatura si basano su rilassamenti a gradiente continuo.
- La potatura dei token è un problema combinatorio discreto e non convesso.
- GRIP-VLM formula la potatura come un Processo Decisionale di Markov.
- Impiega l'Ottimizzazione delle Politiche di Gruppo (GRPO) con riscaldamento supervisionato.
- Il framework include uno scorer consapevole del budget.
- Il metodo mira a ridurre il carico computazionale nei VLM.
- L'articolo è disponibile su arXiv con ID 2605.13375.
Entità
Istituzioni
- arXiv