ARTFEED — Contemporary Art Intelligence

Il bias di Jensen nella quantizzazione della cache KV danneggia la qualità della diffusione video

ai-technology · 2026-05-27

Un bias sistematico è stato scoperto nei pesi di attenzione legati alla quantizzazione a blocchi della cache KV nei modelli di diffusione video autoregressivi. Questo bias, noto come 'bias di Jensen', è il risultato della natura convessa dell'esponenziale nell'attenzione softmax, che porta le chiavi quantizzate ad appropriarsi dell'attenzione dai blocchi correnti non quantizzati, compromettendo così la qualità video. Per affrontare questo problema, i ricercatori suggeriscono una correzione per ogni punteggio di attenzione che elimina il bias in aspettativa, calcolata dinamicamente in base alle dimensioni dei passi di quantizzazione e alle norme delle query, senza costi computazionali significativi o requisiti di memoria aggiuntivi. I risultati sono presentati nel preprint arXiv 2605.26266.

Fatti principali

  • arXiv:2605.26266 identifica il bias di Jensen nella quantizzazione della cache KV per modelli di diffusione video.
  • Il bias di Jensen causa il furto di massa di attenzione dalle chiavi quantizzate ai blocchi correnti non quantizzati.
  • Il bias è dovuto alla convessità dell'esponenziale nell'attenzione softmax.
  • Una correzione per punteggio di attenzione rimuove il bias in aspettativa.
  • La correzione utilizza le dimensioni dei passi di quantizzazione e la norma delle query.
  • Il sovraccarico computazionale è trascurabile grazie all'approssimazione di Taylor del secondo ordine.
  • Non è richiesta memoria aggiuntiva per la correzione.
  • Il lavoro si rivolge a modelli di diffusione video autoregressivi a blocchi.

Entità

Istituzioni

  • arXiv

Fonti