Attenzione Quantizzata con Errore Limitato Certificato a Runtime per LLM

ai-technology · 2026-05-22

Una nuova architettura di cache KV a livelli facilita l'attenzione certificata a runtime nei modelli linguistici di grandi dimensioni, garantendo un errore limitato dovuto alla quantizzazione. L'architettura utilizza chiavi INT8 e valori INT4 memorizzati nella memoria GPU, mentre gli originali FP16 sono conservati nella RAM di sistema per un fallback affidabile. Impiegando una scomposizione dell'errore in due termini, calcola i limiti sulla distorsione della distribuzione dell'attenzione e sull'errore di ricostruzione del valore per ogni testa e passo. Questo guida una selezione adattiva della precisione e un sistema di fallback a più stadi che garantisce il recupero all'output di attenzione densa e precisa quando necessario. Valutato su LLaMA 3.1-8B con contesti fino a 128K nei benchmark PG-19, NIAH e RULER, il sistema raggiunge prestazioni paragonabili all'attenzione densa a piena precisione riducendo i costi di memoria. Questo progresso affronta l'assenza di rilevamento degli errori a runtime negli attuali sistemi di quantizzazione della cache KV, che si basano esclusivamente sulla robustezza media.

Fatti principali

Architettura di cache KV a livelli con chiavi INT8 e valori INT4 nella memoria GPU, originali FP16 nella RAM di sistema
Scomposizione dell'errore in due termini produce limiti per testa e passo sulla distorsione dell'attenzione e sull'errore del valore
Selezione adattiva della precisione e scala di fallback a più stadi garantiscono il recupero all'attenzione densa esatta
Testato su LLaMA 3.1-8B con contesti fino a 128K
Benchmark: PG-19, NIAH, RULER
Eguaglia l'attenzione densa a piena precisione riducendo il costo di memoria
Primo sistema a fornire errore limitato certificato a runtime per attenzione quantizzata
Pubblicato su arXiv: 2605.20868

Entità

—

Fonti

arXiv cs.AI — 2026-05-21