Trasferimento di Simmetria nei LLM tramite Ottimizzazione Layer-Peeled
Un nuovo studio analizza se il pre-addestramento di grandi modelli linguistici minimizzando la perdita di entropia incrociata per la previsione del token successivo induce una struttura geometrica nei pesi appresi e negli embedding di contesto. Utilizzando un programma di ottimizzazione layer-peeled vincolato come surrogato trattabile, gli autori dimostrano che le simmetrie nelle distribuzioni target dei token successivi si trasferiscono ai minimizzatori globali in senso gruppoteorico. In particolare, quando i token target mostrano simmetria di spostamento ciclico (ad esempio, giorni della settimana, mesi dell'anno), la matrice logit ottimale diventa esattamente circolante, e le matrici di Gram degli embedding di contesto riflettono la stessa simmetria. Il lavoro fornisce basi matematiche per comprendere come l'ottimizzazione modella le rappresentazioni nei LLM.
Fatti principali
- 1. arXiv:2605.12756v1
- 2. Lo studio utilizza l'ottimizzazione layer-peeled come surrogato per i LLM
- 3. Si concentra sulla perdita di entropia incrociata per la previsione del token successivo
- 4. Dimostra il trasferimento di simmetria in senso gruppoteorico
- 5. La simmetria di spostamento ciclico porta a una matrice logit circolante
- 6. Esempi: sette giorni della settimana, dodici mesi dell'anno
- 7. Anche le matrici di Gram degli embedding di contesto riflettono la simmetria
- 8. Analizzato un programma di ottimizzazione non convesso
Entità
Istituzioni
- arXiv