Livelli di rete neurale diagonalizzati con FFT riducono i parametri
Uno studio recente pubblicato su arXiv (2605.08171) esplora l'applicazione del framework Communication Dynamics (CD), sviluppato inizialmente per prevedere l'energia atomica e comprendere la superconduttività indotta da campo, alla progettazione di reti neurali. Il livello CDLinear proposto funge da livello lineare a blocchi circolanti con una dimensione del blocco B = 2l+1, utilizzando solo 1/B dei parametri presenti in un livello denso tradizionale. La trasformata discreta di Fourier diagonalizza l'Hessiano della perdita quadratica media, con autovalori derivati direttamente dalle statistiche di input. Quando viene applicato il pre-whitening dell'input, il numero di condizione dell'Hessiano della popolazione è 1, mentre il numero di condizione empirico è limitato a 1+O(sqrt(B/N)). Questo metodo migliora l'efficienza dell'addestramento e minimizza il numero di parametri.
Fatti principali
- L'articolo arXiv 2605.08171 introduce il livello CDLinear
- Il framework CD era originariamente per energia atomica e superconduttività
- CDLinear è a blocchi circolanti con dimensione del blocco B = 2l+1
- Il numero di parametri è 1/B rispetto a un livello denso
- L'Hessiano è diagonalizzato dalla trasformata discreta di Fourier
- Gli autovalori sono |F[Xj](k)|^2 dalle statistiche di input
- Il numero di condizione dell'Hessiano della popolazione = 1 con pre-whitening
- Il numero di condizione empirico è limitato a 1+O(sqrt(B/N))
Entità
Istituzioni
- arXiv