Tassi di Apprendimento Guidati dalla Coda Pesante per Livelli nei LLM

ai-technology · 2026-05-23

Uno studio recente pubblicato su arXiv presenta il Layerwise Learning Rate (LLR), un metodo adattivo innovativo che assegna tassi di apprendimento unici a ciascun livello dei Transformer nei Large Language Models (LLM). Questo approccio si basa sulla teoria dell'Heavy-Tailed Self-Regularization (HT-SR), che analizza la densità spettrale empirica delle matrici di correlazione dei pesi per misurare la pesantezza della coda. Ai livelli che mostrano una minore pesantezza della coda vengono assegnati tassi di apprendimento più elevati per accelerare l'addestramento, mentre quelli con maggiore pesantezza della coda ricevono tassi ridotti. Questa strategia personalizzata favorisce un addestramento bilanciato tra i livelli, risultando in una convergenza più rapida e prestazioni migliorate. La ricerca critica la pratica comune di utilizzare un tasso di apprendimento uniforme per tutti i livelli, che non riconosce la diversità strutturale all'interno dei Transformer.

Fatti principali

La configurazione del tasso di apprendimento è fondamentale per il deep learning moderno.
Tassi di apprendimento uniformi su tutti i livelli trascurano l'eterogeneità strutturale dei Transformer.
LLR assegna tassi di apprendimento distinti ai singoli livelli dei Transformer.
Il metodo si basa sulla teoria dell'Heavy-Tailed Self-Regularization (HT-SR).
HT-SR caratterizza la densità spettrale empirica delle matrici di correlazione dei pesi.
I livelli con pesantezza della coda più debole ricevono tassi di apprendimento maggiori.
I livelli con pesantezza della coda più forte ricevono tassi di apprendimento minori.
LLR promuove un addestramento bilanciato, una convergenza più rapida e prestazioni migliorate.

Tassi di Apprendimento Guidati dalla Coda Pesante per Livelli nei LLM

Fatti principali

Entità

Istituzioni

Fonti