La precisione FP16 causa divergenza deterministica dei token nell'inferenza di trasformatori con cache KV

ai-technology · 2026-04-20

Uno studio pubblicato su arXiv indica che la cache KV, un metodo di ottimizzazione ampiamente utilizzato per l'inferenza autoregressiva dei trasformatori, non corrisponde numericamente al calcolo senza cache nella precisione standard FP16. Questa discrepanza sorge perché i percorsi di esecuzione per cache-ON e cache-OFF utilizzano ordini diversi di accumulazione in virgola mobile, e la natura non associativa dell'FP16 risulta in variazioni consistenti nelle sequenze di token decodificate. Test su tre modelli open-weight—LLaMA-2-7B, Mistral-7B-v0.3 e Gemma-2-2B—utilizzando il dataset GSM8K hanno rivelato un tasso di divergenza dei token del 100% attraverso tutti i metodi di campionamento, incluso il decoding greedy, il che esclude la casualità. Cache-ON ha prodotto una migliore accuratezza in 8 dei 9 scenari, suggerendo che la divergenza è sistematica. La falsificazione controllata in FP32 riduce significativamente la divergenza ed elimina i flip dei token. Il documento, arXiv:2604.15409v1, mette in discussione la nozione precedentemente accettata di equivalenza numerica nella cache KV, influenzando l'affidabilità dei modelli trasformatori in compiti che richiedono precisione numerica.

Fatti principali

L'ottimizzazione della cache KV nell'inferenza autoregressiva dei trasformatori non è numericamente equivalente al calcolo senza cache sotto precisione FP16
I percorsi cache-ON e cache-OFF utilizzano ordinamenti diversi di accumulazione in virgola mobile, causando divergenza deterministica a causa della non associatività dell'FP16
Esperimenti sui modelli LLaMA-2-7B, Mistral-7B-v0.3 e Gemma-2-2B mostrano un tasso di divergenza dei token del 100% sul dataset GSM8K
La divergenza si verifica attraverso tutte le strategie di campionamento, incluso il decoding greedy, escludendo la casualità del campionamento
Cache-ON ha prodotto una maggiore accuratezza in 8 condizioni su 9, indicando una direzione di divergenza sistematica
La falsificazione controllata in FP32 riduce la divergenza di otto ordini di grandezza ed elimina i flip dei token
Il documento è arXiv:2604.15409v1 con tipo di annuncio cross
La scoperta sfida la presunta equivalenza numerica nella cache KV a lungo data per scontata

La precisione FP16 causa divergenza deterministica dei token nell'inferenza di trasformatori con cache KV

Fatti principali

Entità

Istituzioni

Fonti