Deviazione Entropica: Misurare la Non-Casualità nelle Distribuzioni dei Token degli LLM

publication · 2026-04-29

Un nuovo articolo introduce la Deviazione Entropica (ED) per quantificare la non-casualità nelle distribuzioni dei token dei modelli linguistici. Analizzando 31.200 generazioni su sette modelli, due architetture, nove categorie di prompt, tre temperature e cinque lingue, lo studio rileva che con prompt neutri i transformer mostrano un'ED di ~0,30, con l'88-93% della non-casualità intrinseca ai pesi. Tre famiglie di transformer (Gemma, Llama, Qwen) mostrano valori di ED quasi identici. Il modello a spazio di stato Mamba2 presenta il doppio dell'ED, una varianza inferiore e un'elevata sensibilità alla temperatura.

Fatti principali

L'articolo introduce la Deviazione Entropica (ED) come misura della non-casualità nelle distribuzioni dei token.
Analizzate 31.200 generazioni su sette modelli.
Due architetture studiate: transformer e spazio di stato.
Nove categorie di prompt, tre temperature, cinque lingue.
Con prompt neutri, i transformer mostrano un'ED di ~0,30.
L'88-93% della non-casualità è intrinseca ai pesi appresi.
Gemma, Llama, Qwen convergono su valori di ED quasi identici.
Mamba2 mostra il doppio dell'ED e una varianza intra-sequenza tre volte inferiore.

Entità

—

Fonti

arXiv cs.AI — 2026-04-28