AdaFRUGAL: Ottimizzazione Dinamica della Memoria per l'Addestramento di LLM
AdaFRUGAL introduce controlli dinamici per l'addestramento efficiente in termini di memoria di grandi modelli linguistici, automatizzando la regolazione degli iperparametri che in precedenza richiedeva interventi manuali. Il metodo estende il framework FRUGAL incorporando un decadimento lineare per il rapporto del sottospazio (ρ) e una pianificazione basata sulla perdita per la frequenza di aggiornamento (T). Esperimenti sui dataset di pre-addestramento English C4 e Vietnamese VietVault, nonché sul fine-tuning GLUE, mostrano che AdaFRUGAL mantiene prestazioni competitive rispetto ad AdamW e FRUGAL statico, riducendo al contempo la memoria GPU e il tempo di addestramento. Ciò offre una soluzione pratica per ambienti con risorse limitate.
Fatti principali
- AdaFRUGAL automatizza la regolazione degli iperparametri per il rapporto del sottospazio (ρ) e la frequenza di aggiornamento (T) di FRUGAL.
- Utilizza un decadimento lineare per ρ e una pianificazione basata sulla perdita per T.
- Testato su pre-addestramento English C4 e Vietnamese VietVault, e fine-tuning GLUE.
- Mantiene prestazioni competitive rispetto ad AdamW e FRUGAL statico.
- Riduce la memoria GPU e il tempo di addestramento.
- Mirato all'addestramento di LLM in ambienti con risorse limitate.
- Pubblicato su arXiv (2601.11568).
- Autori non specificati nella fonte.
Entità
Istituzioni
- arXiv