Trasferimento di Simmetria nei LLM tramite Ottimizzazione Layer-Peeled

other · 2026-05-14

Un nuovo studio analizza se il pre-addestramento di grandi modelli linguistici minimizzando la perdita di entropia incrociata per la previsione del token successivo induce una struttura geometrica nei pesi appresi e negli embedding di contesto. Utilizzando un programma di ottimizzazione layer-peeled vincolato come surrogato trattabile, gli autori dimostrano che le simmetrie nelle distribuzioni target dei token successivi si trasferiscono ai minimizzatori globali in senso gruppoteorico. In particolare, quando i token target mostrano simmetria di spostamento ciclico (ad esempio, giorni della settimana, mesi dell'anno), la matrice logit ottimale diventa esattamente circolante, e le matrici di Gram degli embedding di contesto riflettono la stessa simmetria. Il lavoro fornisce basi matematiche per comprendere come l'ottimizzazione modella le rappresentazioni nei LLM.

Fatti principali

1. arXiv:2605.12756v1
2. Lo studio utilizza l'ottimizzazione layer-peeled come surrogato per i LLM
3. Si concentra sulla perdita di entropia incrociata per la previsione del token successivo
4. Dimostra il trasferimento di simmetria in senso gruppoteorico
5. La simmetria di spostamento ciclico porta a una matrice logit circolante
6. Esempi: sette giorni della settimana, dodici mesi dell'anno
7. Anche le matrici di Gram degli embedding di contesto riflettono la simmetria
8. Analizzato un programma di ottimizzazione non convesso

Trasferimento di Simmetria nei LLM tramite Ottimizzazione Layer-Peeled

Fatti principali

Entità

Istituzioni

Fonti