Dinamiche di discesa del gradiente in RNN a basso rango rivelano una struttura di apprendimento nascosta

other · 2026-05-07

Un recente studio teorico pubblicato su arXiv estende il quadro a basso rango per comprendere i processi di apprendimento nelle reti neurali ricorrenti. I ricercatori derivano le dinamiche della discesa del gradiente in uno spazio di overlap ridotto, stabilendo un sistema in forma chiusa di equazioni differenziali ordinarie (ODE) che descrive con precisione l'apprendimento per RNN lineari e si avvicina all'accuratezza per RNN non lineari nel limite gaussiano di grandi N. Distinguono tra overlap visibili alla perdita, che influenzano le prestazioni e l'output della rete, e overlap invisibili alla perdita, che, pur non influenzando la funzionalità, sono essenziali per caratterizzare il processo di apprendimento. Questa ricerca migliora la comprensione teorica dell'apprendimento in RNN a basso rango, collegando la connettività di rete ai suoi risultati funzionali.

Fatti principali

Articolo pubblicato su arXiv con ID 2605.04115
Estende il quadro a basso rango dall'attività all'apprendimento
Deriva le dinamiche di discesa del gradiente in uno spazio di overlap ridotto
Formula ODE in forma chiusa per l'apprendimento in RNN a basso rango
Esatto per RNN lineari, asintoticamente esatto per RNN non lineari nel limite gaussiano di grandi N
Distingue overlap visibili e invisibili alla perdita
Gli overlap visibili alla perdita determinano attività, output e perdita della rete
Gli overlap invisibili alla perdita non influenzano la funzione ma sono necessari per descrivere l'apprendimento

Dinamiche di discesa del gradiente in RNN a basso rango rivelano una struttura di apprendimento nascosta

Fatti principali

Entità

Istituzioni

Fonti