ARTFEED — Contemporary Art Intelligence

Trasferimento di Simmetria nei LLM tramite Ottimizzazione Layer-Peeled

other · 2026-05-14

Un nuovo studio analizza se il pre-addestramento di grandi modelli linguistici minimizzando la perdita di entropia incrociata per la previsione del token successivo induce una struttura geometrica nei pesi appresi e negli embedding di contesto. Utilizzando un programma di ottimizzazione layer-peeled vincolato come surrogato trattabile, gli autori dimostrano che le simmetrie nelle distribuzioni target dei token successivi si trasferiscono ai minimizzatori globali in senso gruppoteorico. In particolare, quando i token target mostrano simmetria di spostamento ciclico (ad esempio, giorni della settimana, mesi dell'anno), la matrice logit ottimale diventa esattamente circolante, e le matrici di Gram degli embedding di contesto riflettono la stessa simmetria. Il lavoro fornisce basi matematiche per comprendere come l'ottimizzazione modella le rappresentazioni nei LLM.

Fatti principali

  • 1. arXiv:2605.12756v1
  • 2. Lo studio utilizza l'ottimizzazione layer-peeled come surrogato per i LLM
  • 3. Si concentra sulla perdita di entropia incrociata per la previsione del token successivo
  • 4. Dimostra il trasferimento di simmetria in senso gruppoteorico
  • 5. La simmetria di spostamento ciclico porta a una matrice logit circolante
  • 6. Esempi: sette giorni della settimana, dodici mesi dell'anno
  • 7. Anche le matrici di Gram degli embedding di contesto riflettono la simmetria
  • 8. Analizzato un programma di ottimizzazione non convesso

Entità

Istituzioni

  • arXiv

Fonti