ARTFEED — Contemporary Art Intelligence

Anti-ricomputazione senza addestramento aumenta l'efficienza dei VLM video

ai-technology · 2026-05-07

Un nuovo metodo chiamato anti-ricomputazione senza addestramento riduce lo spreco computazionale nei modelli video-linguaggio (VLM) riutilizzando lo stato visivo precedentemente calcolato quando la validazione conferma che rimane stabile. L'approccio, descritto in un articolo su arXiv (2605.03351), affronta la comune inefficienza per cui i VLM rielaborano contenuti visivi invariati attraverso più query sullo stesso video. Su un modello congelato Qwen2.5-VL-7B-Instruct-4bit, la tecnica ha ottenuto una riduzione della latenza di follow-up di 14,90–35,92x in un'impostazione di ampiezza VideoMME con 93 query, preservando le scelte accoppiate e la correttezza. La prima query rimane fredda, ma le domande successive beneficiano del riutilizzo dello stato. Test di stress mostrano che gli schemi di domande ripetute reggono per 50 turni, e la variazione del prompt basata su risposte dense consente compromessi tra una politica conservativa di riparazione con K=1 fisso e politiche più rapide e aggressive.

Fatti principali

  • L'anti-ricomputazione senza addestramento riutilizza lo stato visivo quando la validazione conferma la stabilità.
  • Il metodo mira alla ridondanza nei pipeline VLM che rielaborano fotogrammi invariati.
  • Testato sul modello congelato Qwen2.5-VL-7B-Instruct-4bit.
  • Ha ottenuto una riduzione della latenza di 14,90–35,92x in un'impostazione di ampiezza VideoMME con 93 query.
  • La prima query è fredda; i guadagni iniziano con il riutilizzo nelle query successive.
  • Gli schemi di domande ripetute reggono per 50 turni.
  • La variazione del prompt basata su risposte dense consente compromessi tra le politiche.
  • Articolo pubblicato su arXiv con ID 2605.03351.

Entità

Istituzioni

  • arXiv

Fonti