Metodi di Pre-Addestramento a Basso Rango Confrontati per la Generalizzazione dei LLM

ai-technology · 2026-05-14

Un recente studio pubblicato su arXiv (2605.13652) mette in discussione l'efficacia della perplessità di validazione come misura per valutare le tecniche di pre-addestramento a basso rango nei modelli linguistici di grandi dimensioni. La ricerca valuta cinque approcci—GaLore, Fira, CoLA, SLTrain e ReLoRA—e conclude che affidarsi esclusivamente alla perplessità non riflette accuratamente la qualità della soluzione. Rivela che due metodi possono produrre punteggi di perplessità simili esplorando regioni distinte nel panorama della perdita e generando rappresentazioni interne diverse. Questo studio colma una lacuna significativa esaminando le soluzioni oltre la perplessità, sollevando la questione se i vincoli di rango influenzino fondamentalmente i risultati ottenuti rispetto all'addestramento a rango pieno.

Fatti principali

Il paper arXiv 2605.13652 confronta cinque metodi di pre-addestramento a basso rango
Metodi studiati: GaLore, Fira, CoLA, SLTrain, ReLoRA
La perplessità di validazione è un indicatore scarso della qualità della soluzione
Due metodi possono corrispondere in perplessità ma convergere in diverse regioni del panorama della perdita
Il pre-addestramento a basso rango mira a ridurre il costo di memoria dei pesi a rango pieno, dei gradienti e degli stati dell'ottimizzatore
Domanda centrale: i metodi a basso rango generalizzano in modo comparabile all'addestramento a rango pieno?
I confronti esistenti si basano su esecuzioni a singolo seme dalla letteratura precedente
Lo studio caratterizza le soluzioni oltre la perplessità per la prima volta

Metodi di Pre-Addestramento a Basso Rango Confrontati per la Generalizzazione dei LLM

Fatti principali

Entità

Istituzioni

Fonti