ARTFEED — Contemporary Art Intelligence

Quadro statistico rileva il degrado dei LLM

ai-technology · 2026-05-07

Un nuovo approccio statistico utilizza il test di McNemar per rilevare il degrado nei grandi modelli linguistici (LLM) anche dopo ottimizzazioni teoricamente senza perdite. Il metodo confronta gli output del modello su campioni appaiati per identificare cali significativi di accuratezza, controllando i falsi positivi. Questo affronta il problema per cui errori numerici possono causare generazioni non robuste a temperatura zero. Il quadro è proposto come strumento per garantire la qualità del modello durante gli sforzi di riduzione dei costi di inferenza e della latenza.

Fatti principali

  • arXiv:2602.10144v2
  • Il test di McNemar è utilizzato per il test di ipotesi
  • Rileva il degrado del modello da errori numerici
  • Controlla il tasso di falsi positivi
  • Applicabile a ottimizzazioni teoricamente senza perdite
  • Affronta generazioni non robuste a temperatura zero

Entità

Fonti