ARTFEED — Contemporary Art Intelligence

I modelli linguistici apprendono rappresentazioni numeriche tramite caratteristiche periodiche

publication · 2026-04-24

Uno studio pubblicato su arXiv rivela che i modelli linguistici addestrati su testo naturale rappresentano i numeri utilizzando caratteristiche periodiche con periodi dominanti a T=2, 5 e 10. La ricerca identifica una gerarchia a due livelli: mentre Transformers, RNN lineari, LSTM e word embedding classici apprendono tutti caratteristiche con picchi di periodo-T nel dominio di Fourier, solo alcuni raggiungono caratteristiche geometricamente separabili per la classificazione lineare mod-T. Gli autori dimostrano che la scarsità di Fourier è necessaria ma non sufficiente per la separabilità geometrica. I risultati empirici mostrano che dati, architettura, ottimizzatore e tokenizer influenzano se i modelli acquisiscono caratteristiche geometricamente separabili, che possono derivare da segnali di co-occorrenza complementari.

Fatti principali

  • I modelli linguistici apprendono caratteristiche periodiche con periodi dominanti T=2, 5, 10
  • Transformers, RNN lineari, LSTM e word embedding mostrano tutti picchi di Fourier
  • Solo alcuni modelli apprendono caratteristiche geometricamente separabili per la classificazione mod-T
  • La scarsità nel dominio di Fourier è necessaria ma non sufficiente per la separabilità geometrica
  • Dati, architettura, ottimizzatore e tokenizer influenzano l'apprendimento delle caratteristiche
  • Identificate due vie per acquisire caratteristiche geometricamente separabili
  • Il segnale di co-occorrenza complementare è una delle vie
  • Studio pubblicato su arXiv con ID 2604.20817

Entità

Istituzioni

  • arXiv

Fonti