Legge di Scaling di Shannon: Un Nuovo Quadro per la Capacità e il Degrado dei LLM
I ricercatori hanno introdotto la Legge di Scaling di Shannon, un quadro concettuale che interpreta l'addestramento dei Grandi Modelli Linguistici (LLM) come trasferimento di informazioni attraverso un canale rumoroso, basato sul teorema di Shannon-Hartley. Questo punto di vista chiarisce comportamenti non lineari come l'overfitting catastrofico e il degrado dovuto alla quantizzazione, dove le prestazioni diminuiscono nonostante una maggiore potenza computazionale. Correlando i parametri del modello con la larghezza di banda del canale e i token di addestramento con la potenza del segnale, il quadro illustra l'interazione tra il segnale di apprendimento e il rumore intrinseco, scoprendo una capacità di Shannon di base per i LLM. Aumentare la dimensione del modello o i dati senza mantenere un rapporto segnale-rumore (SNR) adeguato intensifica il rumore, portando a un passaggio da un miglioramento costante a un declino a forma di U delle prestazioni. L'articolo include la validazione sperimentale di questa teoria.
Fatti principali
- Le leggi di scaling esistenti per i LLM sono prevalentemente leggi di potenza monotone.
- Fenomeni non monotoni includono l'overfitting catastrofico e il degrado indotto dalla quantizzazione.
- La Legge di Scaling di Shannon si basa sul teorema di Shannon-Hartley.
- I parametri del modello sono mappati alla larghezza di banda del canale.
- I token di addestramento sono mappati alla potenza del segnale.
- Esiste una capacità di Shannon fondamentale per i LLM.
- Un SNR insufficiente porta a un degrado delle prestazioni a forma di U.
- Gli esperimenti convalidano la teoria proposta.
Entità
Istituzioni
- arXiv