Gli LLM Sviluppano Strati di Elaborazione Gerarchici Basati sull'Architettura

ai-technology · 2026-05-07

Una recente indagine su otto modelli Transformer, con parametri da 7B a 70B, appartenenti alle famiglie Llama e Qwen, mostra che ciascun modello stabilisce naturalmente confini funzionali distinti che categorizzano i loro strati in segmenti di elaborazione Locali, Intermedi e Globali. Il posizionamento di questi confini, insieme alla fragilità di ciascun segmento, è influenzato principalmente dalla famiglia architetturale piuttosto che dalle dimensioni del modello o dalla sua configurazione di addestramento. I ricercatori hanno introdotto la Teoria della Generazione Probabilistica Multi-Scala (MSPGT), concettualizzando un Transformer autoregressivo come un sistema di Bottiglia Informativa Variazionale Gerarchica. Tutti e otto i modelli confermano fortemente tre previsioni.

Fatti principali

Sono stati analizzati otto modelli Transformer delle famiglie Llama e Qwen
I modelli hanno parametri da 7B a 70B
Tutti i modelli sviluppano segmenti di elaborazione Locali, Intermedi e Globali
Le posizioni dei confini dipendono dalla famiglia architetturale, non dalle dimensioni del modello
MSPGT formalizza la struttura gerarchica
Tre previsioni di MSPGT sono confermate

Entità

—

Fonti

arXiv cs.AI — 2026-05-07