ARTFEED — Contemporary Art Intelligence

Attenzione Quantizzata con Errore Limitato Certificato a Runtime per LLM

ai-technology · 2026-05-22

Una nuova architettura di cache KV a livelli facilita l'attenzione certificata a runtime nei modelli linguistici di grandi dimensioni, garantendo un errore limitato dovuto alla quantizzazione. L'architettura utilizza chiavi INT8 e valori INT4 memorizzati nella memoria GPU, mentre gli originali FP16 sono conservati nella RAM di sistema per un fallback affidabile. Impiegando una scomposizione dell'errore in due termini, calcola i limiti sulla distorsione della distribuzione dell'attenzione e sull'errore di ricostruzione del valore per ogni testa e passo. Questo guida una selezione adattiva della precisione e un sistema di fallback a più stadi che garantisce il recupero all'output di attenzione densa e precisa quando necessario. Valutato su LLaMA 3.1-8B con contesti fino a 128K nei benchmark PG-19, NIAH e RULER, il sistema raggiunge prestazioni paragonabili all'attenzione densa a piena precisione riducendo i costi di memoria. Questo progresso affronta l'assenza di rilevamento degli errori a runtime negli attuali sistemi di quantizzazione della cache KV, che si basano esclusivamente sulla robustezza media.

Fatti principali

  • Architettura di cache KV a livelli con chiavi INT8 e valori INT4 nella memoria GPU, originali FP16 nella RAM di sistema
  • Scomposizione dell'errore in due termini produce limiti per testa e passo sulla distorsione dell'attenzione e sull'errore del valore
  • Selezione adattiva della precisione e scala di fallback a più stadi garantiscono il recupero all'attenzione densa esatta
  • Testato su LLaMA 3.1-8B con contesti fino a 128K
  • Benchmark: PG-19, NIAH, RULER
  • Eguaglia l'attenzione densa a piena precisione riducendo il costo di memoria
  • Primo sistema a fornire errore limitato certificato a runtime per attenzione quantizzata
  • Pubblicato su arXiv: 2605.20868

Entità

Fonti