Anti-ricomputazione senza addestramento aumenta l'efficienza dei VLM video

ai-technology · 2026-05-07

Un nuovo metodo chiamato anti-ricomputazione senza addestramento riduce lo spreco computazionale nei modelli video-linguaggio (VLM) riutilizzando lo stato visivo precedentemente calcolato quando la validazione conferma che rimane stabile. L'approccio, descritto in un articolo su arXiv (2605.03351), affronta la comune inefficienza per cui i VLM rielaborano contenuti visivi invariati attraverso più query sullo stesso video. Su un modello congelato Qwen2.5-VL-7B-Instruct-4bit, la tecnica ha ottenuto una riduzione della latenza di follow-up di 14,90–35,92x in un'impostazione di ampiezza VideoMME con 93 query, preservando le scelte accoppiate e la correttezza. La prima query rimane fredda, ma le domande successive beneficiano del riutilizzo dello stato. Test di stress mostrano che gli schemi di domande ripetute reggono per 50 turni, e la variazione del prompt basata su risposte dense consente compromessi tra una politica conservativa di riparazione con K=1 fisso e politiche più rapide e aggressive.

Fatti principali

L'anti-ricomputazione senza addestramento riutilizza lo stato visivo quando la validazione conferma la stabilità.
Il metodo mira alla ridondanza nei pipeline VLM che rielaborano fotogrammi invariati.
Testato sul modello congelato Qwen2.5-VL-7B-Instruct-4bit.
Ha ottenuto una riduzione della latenza di 14,90–35,92x in un'impostazione di ampiezza VideoMME con 93 query.
La prima query è fredda; i guadagni iniziano con il riutilizzo nelle query successive.
Gli schemi di domande ripetute reggono per 50 turni.
La variazione del prompt basata su risposte dense consente compromessi tra le politiche.
Articolo pubblicato su arXiv con ID 2605.03351.

Anti-ricomputazione senza addestramento aumenta l'efficienza dei VLM video

Fatti principali

Entità

Istituzioni

Fonti