ARTFEED — Contemporary Art Intelligence

Ricerca Introduce il Metodo TDU-OFC per Analizzare le Transizioni di Grokking nelle Reti Neurali

ai-technology · 2026-04-22

Il documento arXiv "Dimensional Criticality at Grokking Across MLPs and Transformers" (identificatore 2604.16431v1) presenta il metodo TDU-OFC (Thresholded Diffusion Update–Olami-Feder-Christensen) per investigare il grokking, che si riferisce alla transizione dalla memorizzazione alla generalizzazione dopo aver raggiunto la massima accuratezza nell'addestramento. Utilizzando una sonda di valanghe offline, la ricerca trasforma gli snapshot del gradiente in statistiche a cascata, consentendo l'estrazione della dimensione effettiva della cascata risolta nel tempo D(t). Gli esperimenti condotti su Transformers e MLP (Multilayer Perceptrons) hanno dimostrato un'intersezione localizzata con la linea di base della diffusione gaussiana D=1 durante la transizione di generalizzazione, che varia in base ai compiti di addizione modulare. Questo studio enfatizza i cambiamenti improvvisi nei sistemi complessi, migliorando la comprensione del comportamento critico nell'IA.

Fatti principali

  • Documento di ricerca pubblicato su arXiv con identificatore 2604.16431v1
  • Introduce il metodo TDU-OFC per analizzare le transizioni di grokking nelle reti neurali
  • Il grokking descrive la transizione improvvisa dalla memorizzazione alla generalizzazione
  • Il metodo converte gli snapshot del gradiente in statistiche a cascata
  • Estrae la dimensione effettiva della cascata risolta nel tempo D(t)
  • Esperimenti condotti su Transformers addestrati su addizione modulare
  • Esperimenti condotti su MLP addestrati su problemi XOR
  • Scoperto un attraversamento dinamico localizzato della linea di base della diffusione gaussiana D=1 alla transizione di generalizzazione

Entità

Istituzioni

  • arXiv

Fonti