ARTFEED — Contemporary Art Intelligence

Il Potatura della Larghezza Rivela una Dicotomia: Migliora il Seguito delle Istruzioni mentre le Attività di Conoscenza Degradano

ai-technology · 2026-05-07

Una recente indagine sulla potatura strutturata della larghezza dei layer GLU-MLP, utilizzando il criterio del Peso Massimo Assoluto (MAW), scopre una chiara divisione nelle prestazioni dei modelli Llama-3.2. Mentre la potatura porta a una diminuzione del rapporto di espansione, con conseguenti cali prevedibili nelle attività di conoscenza parametrica (MMLU, GSM8K) e nelle metriche di perplessità, migliora significativamente le capacità di seguire le istruzioni, con miglioramenti che vanno dal +46% al +75% in IFEval per i modelli da 1B e 3B. Inoltre, il ragionamento multi-step (MUSR) rimane robusto. Questa scoperta contraddice la convinzione che la potatura deteriori uniformemente le prestazioni. Sette configurazioni di rapporti di espansione sono state valutate su vari benchmark, evidenziando il suo ruolo come elemento architetturale cruciale che influenza selettivamente le funzioni cognitive.

Fatti principali

  • Potatura strutturata della larghezza guidata dal criterio MAW applicata ai layer GLU-MLP
  • La riduzione del rapporto di espansione degrada le attività di conoscenza parametrica (MMLU, GSM8K) e la perplessità
  • Il seguito delle istruzioni migliora dal 46% al 75% in IFEval per i modelli Llama-3.2-1B e 3B
  • Il ragionamento multi-step (MUSR) rimane robusto sotto potatura
  • Sette configurazioni di rapporti di espansione valutate
  • I benchmark coprono conoscenza fattuale, ragionamento matematico, comprensione linguistica, seguito delle istruzioni, veridicità
  • Il rapporto di espansione identificato come parametro architetturale critico
  • La potatura non induce un degrado uniforme

Entità

Fonti