Metodi di Pre-Addestramento a Basso Rango Confrontati per la Generalizzazione dei LLM
Un recente studio pubblicato su arXiv (2605.13652) mette in discussione l'efficacia della perplessità di validazione come misura per valutare le tecniche di pre-addestramento a basso rango nei modelli linguistici di grandi dimensioni. La ricerca valuta cinque approcci—GaLore, Fira, CoLA, SLTrain e ReLoRA—e conclude che affidarsi esclusivamente alla perplessità non riflette accuratamente la qualità della soluzione. Rivela che due metodi possono produrre punteggi di perplessità simili esplorando regioni distinte nel panorama della perdita e generando rappresentazioni interne diverse. Questo studio colma una lacuna significativa esaminando le soluzioni oltre la perplessità, sollevando la questione se i vincoli di rango influenzino fondamentalmente i risultati ottenuti rispetto all'addestramento a rango pieno.
Fatti principali
- Il paper arXiv 2605.13652 confronta cinque metodi di pre-addestramento a basso rango
- Metodi studiati: GaLore, Fira, CoLA, SLTrain, ReLoRA
- La perplessità di validazione è un indicatore scarso della qualità della soluzione
- Due metodi possono corrispondere in perplessità ma convergere in diverse regioni del panorama della perdita
- Il pre-addestramento a basso rango mira a ridurre il costo di memoria dei pesi a rango pieno, dei gradienti e degli stati dell'ottimizzatore
- Domanda centrale: i metodi a basso rango generalizzano in modo comparabile all'addestramento a rango pieno?
- I confronti esistenti si basano su esecuzioni a singolo seme dalla letteratura precedente
- Lo studio caratterizza le soluzioni oltre la perplessità per la prima volta
Entità
Istituzioni
- arXiv