ARTFEED — Contemporary Art Intelligence

Il Regularizzatore di Concentrazione dei Pesi Migliora la Robustezza al Pruning nelle Reti Neurali

other · 2026-05-18

Un nuovo regolarizzatore progettato per l'addestramento, noto come Regularizzatore di Concentrazione dei Pesi (WCR), migliora la resilienza delle reti neurali profonde durante il pruning one-shot in scenari di alta sparsità. Sebbene le reti neurali profonde funzionino eccezionalmente bene in applicazioni di visione e linguaggio, il loro elevato numero di parametri pone sfide per l'implementazione in ambienti con risorse limitate. Il pruning one-shot consente di ridurre la dimensione del modello senza necessità di riaddestramento; tuttavia, i metodi di addestramento tradizionali possono portare a notevoli cali di accuratezza in presenza di alta sparsità. Le tecniche precedenti includono regolarizzatori come ℓ1 e DeepHoyer, che modificano le distribuzioni dei pesi, e ottimizzatori robusti al pruning come SAM, CrAM e S²SAM, che mirano ad appianare il paesaggio della funzione di perdita. Tuttavia, gli attuali regolarizzatori o riducono uniformemente tutti i pesi (ℓ1) o creano una sparsità invariante di scala (DeepHoyer), che non concentra efficacemente l'energia dei pesi su un gruppo selezionato di parametri significativi. WCR risolve questo problema aumentando la magnitudine di un numero limitato di parametri mentre spinge gli altri verso zero. La ricerca è disponibile su arXiv con l'identificatore 2511.14282.

Fatti principali

  • Il Regularizzatore di Concentrazione dei Pesi (WCR) è proposto per migliorare la robustezza al pruning.
  • WCR è un regolarizzatore in fase di addestramento.
  • Il pruning one-shot riduce la dimensione del modello senza riaddestramento.
  • L'addestramento standard spesso causa cali di accuratezza sotto sparsità aggressiva.
  • I regolarizzatori precedenti includono ℓ1 e DeepHoyer.
  • Gli ottimizzatori robusti al pruning precedenti includono SAM, CrAM e S²SAM.
  • I regolarizzatori esistenti non concentrano l'energia dei pesi sui parametri informativi.
  • WCR amplifica un piccolo sottoinsieme di parametri mentre spinge gli altri verso zero.

Entità

Istituzioni

  • arXiv

Fonti