Test di Equivalenza dei Layer Divergono: Sostituzione vs. Scambio nei Transformer

ai-technology · 2026-05-18

Uno studio recente pubblicato su arXiv (2605.16234) indica che due tecniche prevalenti per valutare l'equivalenza dei layer nelle reti neurali transformer—sostituzione e scambio—possono produrre risultati notevolmente diversi. Il metodo di sostituzione valuta se la mappatura di un layer può sostituire efficacemente un altro nel suo contesto originale, mentre il metodo di scambio verifica se due layer possono essere scambiati senza impatti significativi. I risultati rivelano che per i transformer pre-addestrati, la disparità nei protocolli può alterare il numero di layer considerati sicuri per il pruning di diverse volte sotto gli stessi valutatori, in particolare con alte distanze di sostituzione. Osservazioni attraverso vari checkpoint e architetture, inclusi Pythia 410M e 1.4B, dimostrano che questo divario aumenta dall'inizializzazione alla convergenza. Alla scala 8B, Qwen3-8B entra in uno stato divergente in cui la rimozione guidata dallo scambio è significativamente più sicura dei metodi guidati dalla sostituzione a budget di layer equivalenti, mentre Llama-3.1-8B mostra maggiore coerenza tra i due approcci.

Fatti principali

Il paper arXiv 2605.16234 studia l'equivalenza dei layer nei transformer.
Sostituzione e scambio sono due test distinti per l'equivalenza dei layer.
La sostituzione verifica se la mappa di un layer può sostituire un altro al suo posto.
Lo scambio verifica se due layer commutano approssimativamente quando scambiati.
Il divario di protocollo può cambiare quali layer sembrano sicuri per il pruning di diverse volte.
Su Pythia 410M e 1.4B, il divario cresce dall'inizializzazione alla convergenza.
Qwen3-8B mostra un regime divergente: la rimozione guidata dallo scambio è più sicura di quella guidata dalla sostituzione.
Llama-3.1-8B lega i due protocolli alla scala 8B.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18