Deviazione Entropica: Misurare la Non-Casualità nelle Distribuzioni dei Token degli LLM
Un nuovo articolo introduce la Deviazione Entropica (ED) per quantificare la non-casualità nelle distribuzioni dei token dei modelli linguistici. Analizzando 31.200 generazioni su sette modelli, due architetture, nove categorie di prompt, tre temperature e cinque lingue, lo studio rileva che con prompt neutri i transformer mostrano un'ED di ~0,30, con l'88-93% della non-casualità intrinseca ai pesi. Tre famiglie di transformer (Gemma, Llama, Qwen) mostrano valori di ED quasi identici. Il modello a spazio di stato Mamba2 presenta il doppio dell'ED, una varianza inferiore e un'elevata sensibilità alla temperatura.
Fatti principali
- L'articolo introduce la Deviazione Entropica (ED) come misura della non-casualità nelle distribuzioni dei token.
- Analizzate 31.200 generazioni su sette modelli.
- Due architetture studiate: transformer e spazio di stato.
- Nove categorie di prompt, tre temperature, cinque lingue.
- Con prompt neutri, i transformer mostrano un'ED di ~0,30.
- L'88-93% della non-casualità è intrinseca ai pesi appresi.
- Gemma, Llama, Qwen convergono su valori di ED quasi identici.
- Mamba2 mostra il doppio dell'ED e una varianza intra-sequenza tre volte inferiore.
Entità
—