Il metodo s-Trace rivela una computazione in due fasi nei LLM
Un nuovo metodo chiamato s-Trace stima in modo efficiente il sottografo minimo di un modello linguistico di grandi dimensioni basato su transformer (LLM) che meglio approssima l'output completo del modello. Applicando s-Trace a vari LLM emerge che la computazione è organizzata in due fasi distinte: una fase iniziale in cui un piccolo sottografo, principalmente dai primi strati, ricostruisce la testa della distribuzione di output, e una fase successiva in cui nodi aggiuntivi, principalmente attention head negli strati successivi, forniscono perfezionamenti incrementali. La quantità di computazione necessaria per input è correlata all'incertezza del modello, e sottografi più sparsi codificano statistiche superficiali come la frequenza degli unigrammi. I risultati suggeriscono che i LLM non sfruttano tutta la loro capacità per tutti gli input.
Fatti principali
- Il metodo s-Trace stima il sottografo minimo di dimensione s che meglio approssima l'output completo del modello.
- La computazione nei LLM è organizzata in due fasi distinte.
- Il sottografo della fase iniziale è composto principalmente da nodi dei primi strati e ricostruisce la testa della distribuzione di output.
- La fase successiva aggiunge nodi principalmente negli strati successivi, sempre più attention head, per perfezionamenti incrementali.
- La quantità di computazione necessaria per input è correlata all'incertezza del modello.
- Sottografi più sparsi codificano statistiche superficiali come la frequenza degli unigrammi.
- Lo studio è stato pubblicato su arXiv con identificatore 2605.27033.
- I risultati suggeriscono che i LLM non sfruttano tutta la loro capacità per tutti gli input.
Entità
Istituzioni
- arXiv