Attenzione Quantizzata con Errore Limitato Certificato a Runtime per LLM
Una nuova architettura di cache KV a livelli facilita l'attenzione certificata a runtime nei modelli linguistici di grandi dimensioni, garantendo un errore limitato dovuto alla quantizzazione. L'architettura utilizza chiavi INT8 e valori INT4 memorizzati nella memoria GPU, mentre gli originali FP16 sono conservati nella RAM di sistema per un fallback affidabile. Impiegando una scomposizione dell'errore in due termini, calcola i limiti sulla distorsione della distribuzione dell'attenzione e sull'errore di ricostruzione del valore per ogni testa e passo. Questo guida una selezione adattiva della precisione e un sistema di fallback a più stadi che garantisce il recupero all'output di attenzione densa e precisa quando necessario. Valutato su LLaMA 3.1-8B con contesti fino a 128K nei benchmark PG-19, NIAH e RULER, il sistema raggiunge prestazioni paragonabili all'attenzione densa a piena precisione riducendo i costi di memoria. Questo progresso affronta l'assenza di rilevamento degli errori a runtime negli attuali sistemi di quantizzazione della cache KV, che si basano esclusivamente sulla robustezza media.
Fatti principali
- Architettura di cache KV a livelli con chiavi INT8 e valori INT4 nella memoria GPU, originali FP16 nella RAM di sistema
- Scomposizione dell'errore in due termini produce limiti per testa e passo sulla distorsione dell'attenzione e sull'errore del valore
- Selezione adattiva della precisione e scala di fallback a più stadi garantiscono il recupero all'attenzione densa esatta
- Testato su LLaMA 3.1-8B con contesti fino a 128K
- Benchmark: PG-19, NIAH, RULER
- Eguaglia l'attenzione densa a piena precisione riducendo il costo di memoria
- Primo sistema a fornire errore limitato certificato a runtime per attenzione quantizzata
- Pubblicato su arXiv: 2605.20868
Entità
—