Quadro statistico rileva il degrado dei LLM

ai-technology · 2026-05-07

Un nuovo approccio statistico utilizza il test di McNemar per rilevare il degrado nei grandi modelli linguistici (LLM) anche dopo ottimizzazioni teoricamente senza perdite. Il metodo confronta gli output del modello su campioni appaiati per identificare cali significativi di accuratezza, controllando i falsi positivi. Questo affronta il problema per cui errori numerici possono causare generazioni non robuste a temperatura zero. Il quadro è proposto come strumento per garantire la qualità del modello durante gli sforzi di riduzione dei costi di inferenza e della latenza.

Fatti principali

arXiv:2602.10144v2
Il test di McNemar è utilizzato per il test di ipotesi
Rileva il degrado del modello da errori numerici
Controlla il tasso di falsi positivi
Applicabile a ottimizzazioni teoricamente senza perdite
Affronta generazioni non robuste a temperatura zero

Entità

—

Fonti

arXiv cs.AI — 2026-05-07