Lo Schema di Tokenizzazione Suffisso Triadico Mira a Migliorare il Ragionamento Numerico dei LLM

ai-technology · 2026-04-20

Una nuova tecnica di tokenizzazione, denominata Tokenizzazione Suffisso Triadico (TST), è stata sviluppata per affrontare le carenze nel ragionamento numerico osservate nei grandi modelli linguistici. I tradizionali metodi di tokenizzazione sublessicale spesso frammentano i numeri in modo incoerente, portando a una perdita di integrità posizionale e decimale, che contribuisce significativamente agli errori nei calcoli aritmetici e scientifici. L'approccio TST divide sistematicamente le cifre in triadi di tre e etichetta ciascuna triade con un marcatore di magnitudine specifico, stabilendo una chiara corrispondenza uno-a-uno tra suffissi e ordini di magnitudine per gli interi (migliaia, milioni, miliardi) e un quadro simile per i valori frazionari (decimi, millesimi, milionesimi). A differenza dei metodi di inferenza posizionale, TST offre un segnale di gradiente affidabile per una maggiore stabilità nell'addestramento del modello. Sono suggerite due varianti di implementazione, incluso un metodo basato sul vocabolario che può aggiungere fino a 10.000 token fissi a un vocabolario esistente. Questa ricerca è stata condivisa su arXiv con l'identificatore 2604.11582v2, classificata sotto il tipo di annuncio replace-cross.

Fatti principali

La Tokenizzazione Suffisso Triadico (TST) è un nuovo metodo di tokenizzazione per il ragionamento numerico nei LLM
La tokenizzazione sublessicale standard frammenta i numeri in modo incoerente, causando la perdita della struttura posizionale e decimale
La TST partiziona le cifre in triadi di tre cifre con marcatori di magnitudine espliciti
Lo schema crea una mappatura fissa tra suffissi e ordini di magnitudine per le parti intere
Un sistema parallelo gestisce la profondità frazionaria con marcatori replicati
La TST fornisce un segnale di gradiente coerente per una convergenza stabile
Sono proposte due varianti di implementazione, incluso un approccio basato sul vocabolario
La ricerca è stata annunciata su arXiv con l'identificatore 2604.11582v2 sotto il tipo replace-cross

Lo Schema di Tokenizzazione Suffisso Triadico Mira a Migliorare il Ragionamento Numerico dei LLM

Fatti principali

Entità

Istituzioni

Fonti