Budgeted LoRA: Allocazione Strutturata del Calcolo per un'Inferenza Efficiente dei Modelli Linguistici di Grandi Dimensioni
Un recente articolo pubblicato su arXiv introduce Budgeted LoRA, un framework per distillare modelli linguistici di grandi dimensioni inquadrando la compressione del modello come un problema strutturato di allocazione del calcolo. A differenza di metodi precedenti come LoRA, che riducono i costi di adattamento mantenendo intatto il backbone denso, Budgeted LoRA stabilisce un budget di calcolo globale che determina la proporzione desiderata di calcolo denso da mantenere. Questo framework consente al modello di riallocare la capacità tra percorsi densi e a basso rango utilizzando tre strategie: coefficienti di ritenzione densi a livello di modulo, allocazione adattiva a basso rango e compressione post-addestramento che modifica, approssima o mantiene selettivamente i componenti densi. L'obiettivo è creare modelli studente che siano sia economici da addestrare che efficienti durante l'inferenza. L'articolo è disponibile su arXiv con l'identificatore 2605.04341.
Fatti principali
- Budgeted LoRA è un framework di distillazione per modelli linguistici di grandi dimensioni.
- Tratta la compressione del modello come un problema strutturato di allocazione del calcolo.
- Un budget di calcolo globale imposta la frazione target finale di calcolo denso mantenuto.
- Tre meccanismi: coefficienti di ritenzione densi a livello di modulo, allocazione adattiva a basso rango, compressione post-addestramento.
- Mira a produrre modelli studente strutturalmente efficienti al momento dell'inferenza.
- Approcci precedenti come LoRA riducono il costo di adattamento ma lasciano invariato il backbone denso.
- Articolo disponibile su arXiv: 2605.04341.
Entità
Istituzioni
- arXiv