ARTFEED — Contemporary Art Intelligence

Dinamiche di discesa del gradiente in RNN a basso rango rivelano una struttura di apprendimento nascosta

other · 2026-05-07

Un recente studio teorico pubblicato su arXiv estende il quadro a basso rango per comprendere i processi di apprendimento nelle reti neurali ricorrenti. I ricercatori derivano le dinamiche della discesa del gradiente in uno spazio di overlap ridotto, stabilendo un sistema in forma chiusa di equazioni differenziali ordinarie (ODE) che descrive con precisione l'apprendimento per RNN lineari e si avvicina all'accuratezza per RNN non lineari nel limite gaussiano di grandi N. Distinguono tra overlap visibili alla perdita, che influenzano le prestazioni e l'output della rete, e overlap invisibili alla perdita, che, pur non influenzando la funzionalità, sono essenziali per caratterizzare il processo di apprendimento. Questa ricerca migliora la comprensione teorica dell'apprendimento in RNN a basso rango, collegando la connettività di rete ai suoi risultati funzionali.

Fatti principali

  • Articolo pubblicato su arXiv con ID 2605.04115
  • Estende il quadro a basso rango dall'attività all'apprendimento
  • Deriva le dinamiche di discesa del gradiente in uno spazio di overlap ridotto
  • Formula ODE in forma chiusa per l'apprendimento in RNN a basso rango
  • Esatto per RNN lineari, asintoticamente esatto per RNN non lineari nel limite gaussiano di grandi N
  • Distingue overlap visibili e invisibili alla perdita
  • Gli overlap visibili alla perdita determinano attività, output e perdita della rete
  • Gli overlap invisibili alla perdita non influenzano la funzione ma sono necessari per descrivere l'apprendimento

Entità

Istituzioni

  • arXiv

Fonti