Anti-ricomputazione senza addestramento aumenta l'efficienza dei VLM video
Un nuovo metodo chiamato anti-ricomputazione senza addestramento riduce lo spreco computazionale nei modelli video-linguaggio (VLM) riutilizzando lo stato visivo precedentemente calcolato quando la validazione conferma che rimane stabile. L'approccio, descritto in un articolo su arXiv (2605.03351), affronta la comune inefficienza per cui i VLM rielaborano contenuti visivi invariati attraverso più query sullo stesso video. Su un modello congelato Qwen2.5-VL-7B-Instruct-4bit, la tecnica ha ottenuto una riduzione della latenza di follow-up di 14,90–35,92x in un'impostazione di ampiezza VideoMME con 93 query, preservando le scelte accoppiate e la correttezza. La prima query rimane fredda, ma le domande successive beneficiano del riutilizzo dello stato. Test di stress mostrano che gli schemi di domande ripetute reggono per 50 turni, e la variazione del prompt basata su risposte dense consente compromessi tra una politica conservativa di riparazione con K=1 fisso e politiche più rapide e aggressive.
Fatti principali
- L'anti-ricomputazione senza addestramento riutilizza lo stato visivo quando la validazione conferma la stabilità.
- Il metodo mira alla ridondanza nei pipeline VLM che rielaborano fotogrammi invariati.
- Testato sul modello congelato Qwen2.5-VL-7B-Instruct-4bit.
- Ha ottenuto una riduzione della latenza di 14,90–35,92x in un'impostazione di ampiezza VideoMME con 93 query.
- La prima query è fredda; i guadagni iniziano con il riutilizzo nelle query successive.
- Gli schemi di domande ripetute reggono per 50 turni.
- La variazione del prompt basata su risposte dense consente compromessi tra le politiche.
- Articolo pubblicato su arXiv con ID 2605.03351.
Entità
Istituzioni
- arXiv