I modelli linguistici apprendono rappresentazioni numeriche tramite caratteristiche periodiche

publication · 2026-04-24

Uno studio pubblicato su arXiv rivela che i modelli linguistici addestrati su testo naturale rappresentano i numeri utilizzando caratteristiche periodiche con periodi dominanti a T=2, 5 e 10. La ricerca identifica una gerarchia a due livelli: mentre Transformers, RNN lineari, LSTM e word embedding classici apprendono tutti caratteristiche con picchi di periodo-T nel dominio di Fourier, solo alcuni raggiungono caratteristiche geometricamente separabili per la classificazione lineare mod-T. Gli autori dimostrano che la scarsità di Fourier è necessaria ma non sufficiente per la separabilità geometrica. I risultati empirici mostrano che dati, architettura, ottimizzatore e tokenizer influenzano se i modelli acquisiscono caratteristiche geometricamente separabili, che possono derivare da segnali di co-occorrenza complementari.

Fatti principali

I modelli linguistici apprendono caratteristiche periodiche con periodi dominanti T=2, 5, 10
Transformers, RNN lineari, LSTM e word embedding mostrano tutti picchi di Fourier
Solo alcuni modelli apprendono caratteristiche geometricamente separabili per la classificazione mod-T
La scarsità nel dominio di Fourier è necessaria ma non sufficiente per la separabilità geometrica
Dati, architettura, ottimizzatore e tokenizer influenzano l'apprendimento delle caratteristiche
Identificate due vie per acquisire caratteristiche geometricamente separabili
Il segnale di co-occorrenza complementare è una delle vie
Studio pubblicato su arXiv con ID 2604.20817

I modelli linguistici apprendono rappresentazioni numeriche tramite caratteristiche periodiche

Fatti principali

Entità

Istituzioni

Fonti