ARTFEED — Contemporary Art Intelligence

Studio Empirico Verifica il Teorema di Repulsione nel Grokking delle Reti Neurali

other · 2026-05-12

Un nuovo studio empirico indaga il teorema di repulsione proposto da Tian (2025) per reti neurali a due strati in fase di grokking, un fenomeno in cui le reti generalizzano improvvisamente dopo un prolungato overfitting. Il teorema prevede che durante l'apprendimento interattivo delle caratteristiche, caratteristiche simili si respingano a vicenda, lasciando una firma spettrale negli aggiornamenti dei parametri. Lo studio testa questa ipotesi sulla configurazione di addizione modulare di Tian (M=71, K=2048, perdita MSE) e trova una dissociazione struttura-meccanismo: la regola del segno prevista vale robustamente per le 200 coppie di caratteristiche più simili, con la corrispondenza empirica del segno che sale da 0,865 a 0,985 su σ=x² attraverso 5 semi e satura a 1,000 su σ=ReLU. Tuttavia, la firma spettrale negli aggiornamenti dei parametri è fortemente dipendente dall'attivazione, indicando che il meccanismo di repulsione non è sempre empiricamente osservabile. Il lavoro è stato pubblicato su arXiv con ID 2605.08119.

Fatti principali

  • Tian (2025) ha dimostrato un teorema di repulsione per la matrice B = (F̃ᵀF̃ + ηI)⁻¹ durante il grokking.
  • Il teorema prevede elementi fuori diagonale negativi Bⱼₗ per caratteristiche simili, causando repulsione.
  • Lo studio testa il teorema sulla configurazione di addizione modulare di Tian con M=71, K=2048, perdita MSE.
  • La corrispondenza empirica del segno per le 200 coppie di caratteristiche più simili è salita da 0,865 a 0,985 su σ=x² attraverso 5 semi.
  • La corrispondenza empirica del segno ha saturato a 1,000 su σ=ReLU.
  • La firma spettrale negli aggiornamenti dei parametri è fortemente dipendente dall'attivazione.
  • Lo studio rivela una dissociazione struttura-meccanismo nell'effetto di repulsione.
  • L'articolo è stato pubblicato su arXiv con ID 2605.08119.

Entità

Istituzioni

  • arXiv

Fonti