Il metodo s-Trace rivela una computazione in due fasi nei LLM

ai-technology · 2026-05-27

Un nuovo metodo chiamato s-Trace stima in modo efficiente il sottografo minimo di un modello linguistico di grandi dimensioni basato su transformer (LLM) che meglio approssima l'output completo del modello. Applicando s-Trace a vari LLM emerge che la computazione è organizzata in due fasi distinte: una fase iniziale in cui un piccolo sottografo, principalmente dai primi strati, ricostruisce la testa della distribuzione di output, e una fase successiva in cui nodi aggiuntivi, principalmente attention head negli strati successivi, forniscono perfezionamenti incrementali. La quantità di computazione necessaria per input è correlata all'incertezza del modello, e sottografi più sparsi codificano statistiche superficiali come la frequenza degli unigrammi. I risultati suggeriscono che i LLM non sfruttano tutta la loro capacità per tutti gli input.

Fatti principali

Il metodo s-Trace stima il sottografo minimo di dimensione s che meglio approssima l'output completo del modello.
La computazione nei LLM è organizzata in due fasi distinte.
Il sottografo della fase iniziale è composto principalmente da nodi dei primi strati e ricostruisce la testa della distribuzione di output.
La fase successiva aggiunge nodi principalmente negli strati successivi, sempre più attention head, per perfezionamenti incrementali.
La quantità di computazione necessaria per input è correlata all'incertezza del modello.
Sottografi più sparsi codificano statistiche superficiali come la frequenza degli unigrammi.
Lo studio è stato pubblicato su arXiv con identificatore 2605.27033.
I risultati suggeriscono che i LLM non sfruttano tutta la loro capacità per tutti gli input.

Il metodo s-Trace rivela una computazione in due fasi nei LLM

Fatti principali

Entità

Istituzioni

Fonti