Gli LLM Sviluppano Strati di Elaborazione Gerarchici Basati sull'Architettura
Una recente indagine su otto modelli Transformer, con parametri da 7B a 70B, appartenenti alle famiglie Llama e Qwen, mostra che ciascun modello stabilisce naturalmente confini funzionali distinti che categorizzano i loro strati in segmenti di elaborazione Locali, Intermedi e Globali. Il posizionamento di questi confini, insieme alla fragilità di ciascun segmento, è influenzato principalmente dalla famiglia architetturale piuttosto che dalle dimensioni del modello o dalla sua configurazione di addestramento. I ricercatori hanno introdotto la Teoria della Generazione Probabilistica Multi-Scala (MSPGT), concettualizzando un Transformer autoregressivo come un sistema di Bottiglia Informativa Variazionale Gerarchica. Tutti e otto i modelli confermano fortemente tre previsioni.
Fatti principali
- Sono stati analizzati otto modelli Transformer delle famiglie Llama e Qwen
- I modelli hanno parametri da 7B a 70B
- Tutti i modelli sviluppano segmenti di elaborazione Locali, Intermedi e Globali
- Le posizioni dei confini dipendono dalla famiglia architetturale, non dalle dimensioni del modello
- MSPGT formalizza la struttura gerarchica
- Tre previsioni di MSPGT sono confermate
Entità
—