ARTFEED — Contemporary Art Intelligence

RotateK: Potatura dei Canali Chiave Basata su Rotazione per un'Inferenza Efficiente dei VLM

ai-technology · 2026-05-20

I ricercatori hanno introdotto RotateK, un framework per la potatura strutturata dei canali chiave basata su rotazione, volto ad alleviare la pressione sulla cache KV durante l'inferenza nei modelli visione-linguaggio (VLM). Questi modelli trasformano una singola immagine in migliaia di token, causando un consumo significativo di memoria. Le attuali tecniche di potatura dei token tendono a eliminare informazioni visive, influenzando negativamente i compiti di percezione a grana fine. Sfruttando la scarsità delle caratteristiche, RotateK comprime la dimensione dei canali, mantenendo così più token visivi all'interno di un budget fisso di cache KV. Utilizza una rotazione online basata su PCA per sincronizzare l'importanza dei canali dipendente dal token in un sottospazio unificato a bassa dimensionalità, facilitando una potatura precisa con una struttura leggera e hardware-friendly per testa. Questo approccio bilancia la natura espressiva della potatura non strutturata per token con la robustezza dei metodi per testa. I dettagli completi sono disponibili su arXiv:2605.19218.

Fatti principali

  • 1. RotateK è un framework di potatura strutturata dei canali chiave basato su rotazione per VLM.
  • 2. I VLM soffrono di pressione sulla cache KV perché una singola immagine viene codificata in migliaia di token.
  • 3. La potatura dei token elimina permanentemente contenuti visivi, danneggiando i compiti di percezione a grana fine.
  • 4. RotateK comprime la dimensione dei canali per preservare più token visivi allo stesso costo di memoria.
  • 5. Utilizza una rotazione online basata su PCA per allineare l'importanza dei canali in un sottospazio condiviso.
  • 6. Il metodo consente una potatura accurata con una struttura leggera e hardware-friendly per testa.
  • 7. I precedenti metodi di potatura dei canali chiave affrontavano un compromesso tra espressività e compatibilità hardware.
  • 8. L'articolo è disponibile su arXiv con ID 2605.19218.

Entità

Istituzioni

  • arXiv

Fonti