ShadowPEFT Introduce un Framework Centralizzato per il Fine-Tuning Efficiente dei Modelli Linguistici di Grandi Dimensioni
Una nuova tecnica di fine-tuning denominata ShadowPEFT è stata introdotta come alternativa ai metodi attuali come la Low-Rank Adaptation (LoRA). Questo approccio centralizzato affina i livelli utilizzando un modulo shadow condiviso in profondità, invece di applicare perturbazioni a basso rango separate ai singoli pesi. ShadowPEFT mantiene uno stato shadow parallelo ad ogni livello del trasformatore, che si evolve continuamente per creare stati nascosti sempre più sofisticati. Questa innovazione trasforma l'adattamento da aggiustamenti localizzati nello spazio dei pesi a un processo di raffinamento collettivo nello spazio dei livelli. La separazione del modulo shadow dal backbone ne consente il riutilizzo a diverse profondità e permette un pre-addestramento indipendente. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.19254v1. Il fine-tuning efficiente dei parametri riduce i costi di addestramento per i modelli linguistici di grandi dimensioni concentrandosi sui parametri specifici del compito, mantenendo fisso il backbone pre-addestrato.
Fatti principali
- ShadowPEFT è un nuovo framework di fine-tuning efficiente dei parametri
- Utilizza un approccio centralizzato con un modulo shadow condiviso in profondità
- Il metodo esegue una raffinazione a livello di layer anziché perturbazioni a livello di peso
- Mantiene stati shadow paralleli ad ogni livello del trasformatore
- Gli stati shadow si evolvono ripetutamente per ottenere stati nascosti più ricchi
- Il framework sposta l'adattamento dalla raffinazione dello spazio dei pesi a quella dello spazio dei layer
- Il modulo shadow è disaccoppiato dal modello backbone
- La ricerca è stata pubblicata su arXiv con l'identificatore 2604.19254v1
Entità
Istituzioni
- arXiv