Il Potatura della Larghezza Rivela una Dicotomia: Migliora il Seguito delle Istruzioni mentre le Attività di Conoscenza Degradano

ai-technology · 2026-05-07

Una recente indagine sulla potatura strutturata della larghezza dei layer GLU-MLP, utilizzando il criterio del Peso Massimo Assoluto (MAW), scopre una chiara divisione nelle prestazioni dei modelli Llama-3.2. Mentre la potatura porta a una diminuzione del rapporto di espansione, con conseguenti cali prevedibili nelle attività di conoscenza parametrica (MMLU, GSM8K) e nelle metriche di perplessità, migliora significativamente le capacità di seguire le istruzioni, con miglioramenti che vanno dal +46% al +75% in IFEval per i modelli da 1B e 3B. Inoltre, il ragionamento multi-step (MUSR) rimane robusto. Questa scoperta contraddice la convinzione che la potatura deteriori uniformemente le prestazioni. Sette configurazioni di rapporti di espansione sono state valutate su vari benchmark, evidenziando il suo ruolo come elemento architetturale cruciale che influenza selettivamente le funzioni cognitive.

Fatti principali

Potatura strutturata della larghezza guidata dal criterio MAW applicata ai layer GLU-MLP
La riduzione del rapporto di espansione degrada le attività di conoscenza parametrica (MMLU, GSM8K) e la perplessità
Il seguito delle istruzioni migliora dal 46% al 75% in IFEval per i modelli Llama-3.2-1B e 3B
Il ragionamento multi-step (MUSR) rimane robusto sotto potatura
Sette configurazioni di rapporti di espansione valutate
I benchmark coprono conoscenza fattuale, ragionamento matematico, comprensione linguistica, seguito delle istruzioni, veridicità
Il rapporto di espansione identificato come parametro architetturale critico
La potatura non induce un degrado uniforme

Entità

—

Fonti

arXiv cs.AI — 2026-05-07