ARTFEED — Contemporary Art Intelligence

Deviazione Entropica: Misurare la Non-Casualità nelle Distribuzioni dei Token degli LLM

publication · 2026-04-29

Un nuovo articolo introduce la Deviazione Entropica (ED) per quantificare la non-casualità nelle distribuzioni dei token dei modelli linguistici. Analizzando 31.200 generazioni su sette modelli, due architetture, nove categorie di prompt, tre temperature e cinque lingue, lo studio rileva che con prompt neutri i transformer mostrano un'ED di ~0,30, con l'88-93% della non-casualità intrinseca ai pesi. Tre famiglie di transformer (Gemma, Llama, Qwen) mostrano valori di ED quasi identici. Il modello a spazio di stato Mamba2 presenta il doppio dell'ED, una varianza inferiore e un'elevata sensibilità alla temperatura.

Fatti principali

  • L'articolo introduce la Deviazione Entropica (ED) come misura della non-casualità nelle distribuzioni dei token.
  • Analizzate 31.200 generazioni su sette modelli.
  • Due architetture studiate: transformer e spazio di stato.
  • Nove categorie di prompt, tre temperature, cinque lingue.
  • Con prompt neutri, i transformer mostrano un'ED di ~0,30.
  • L'88-93% della non-casualità è intrinseca ai pesi appresi.
  • Gemma, Llama, Qwen convergono su valori di ED quasi identici.
  • Mamba2 mostra il doppio dell'ED e una varianza intra-sequenza tre volte inferiore.

Entità

Fonti