ARTFEED — Contemporary Art Intelligence

Gli LLM Sviluppano Strati di Elaborazione Gerarchici Basati sull'Architettura

ai-technology · 2026-05-07

Una recente indagine su otto modelli Transformer, con parametri da 7B a 70B, appartenenti alle famiglie Llama e Qwen, mostra che ciascun modello stabilisce naturalmente confini funzionali distinti che categorizzano i loro strati in segmenti di elaborazione Locali, Intermedi e Globali. Il posizionamento di questi confini, insieme alla fragilità di ciascun segmento, è influenzato principalmente dalla famiglia architetturale piuttosto che dalle dimensioni del modello o dalla sua configurazione di addestramento. I ricercatori hanno introdotto la Teoria della Generazione Probabilistica Multi-Scala (MSPGT), concettualizzando un Transformer autoregressivo come un sistema di Bottiglia Informativa Variazionale Gerarchica. Tutti e otto i modelli confermano fortemente tre previsioni.

Fatti principali

  • Sono stati analizzati otto modelli Transformer delle famiglie Llama e Qwen
  • I modelli hanno parametri da 7B a 70B
  • Tutti i modelli sviluppano segmenti di elaborazione Locali, Intermedi e Globali
  • Le posizioni dei confini dipendono dalla famiglia architetturale, non dalle dimensioni del modello
  • MSPGT formalizza la struttura gerarchica
  • Tre previsioni di MSPGT sono confermate

Entità

Fonti