LEAP: Nuovo Metodo di Addestramento Aumenta l'Efficienza dei Transformer di 1,61x
I ricercatori hanno scoperto una significativa incompatibilità tra la distillazione allineata per layer e i meccanismi di early exit basati sulla convergenza nei modelli transformer. Gli obiettivi di distillazione che sincronizzano i layer intermedi degli studenti con le rappresentazioni dell'insegnante ostacolano la convergenza rappresentazionale necessaria per gli early exit, rendendoli inefficaci. Per affrontare questo problema, il team presenta LEAP (Layer-wise Exit-Aware Pretraining), un obiettivo di addestramento ausiliario che non richiede modifiche all'architettura. LEAP migliora la distillazione standard imponendo un vincolo che garantisce che i layer intermedi assomiglino strettamente alle rappresentazioni del layer finale. Implementato in MiniLM, LEAP produce un aumento di 1,61x nella velocità wall-clock a batch=1 su una GPU NVIDIA L4 con soglia θ=0,95, con il 91,9% dei campioni che escono entro il layer 7. Il paper è disponibile su arXiv con identificatore 2605.01058.
Fatti principali
- LEAP riconcilia l'incompatibilità tra distillazione e early exit.
- Non richiede modifiche architetturali.
- LEAP-MiniLM raggiunge un speedup di 1,61x su NVIDIA L4.
- Il 91,9% dei campioni esce entro il layer 7 a θ=0,95.
- Paper disponibile su arXiv: 2605.01058.
Entità
Istituzioni
- arXiv
- NVIDIA