ARTFEED — Contemporary Art Intelligence

Lo Schema di Tokenizzazione Suffisso Triadico Mira a Migliorare il Ragionamento Numerico dei LLM

ai-technology · 2026-04-20

Una nuova tecnica di tokenizzazione, denominata Tokenizzazione Suffisso Triadico (TST), è stata sviluppata per affrontare le carenze nel ragionamento numerico osservate nei grandi modelli linguistici. I tradizionali metodi di tokenizzazione sublessicale spesso frammentano i numeri in modo incoerente, portando a una perdita di integrità posizionale e decimale, che contribuisce significativamente agli errori nei calcoli aritmetici e scientifici. L'approccio TST divide sistematicamente le cifre in triadi di tre e etichetta ciascuna triade con un marcatore di magnitudine specifico, stabilendo una chiara corrispondenza uno-a-uno tra suffissi e ordini di magnitudine per gli interi (migliaia, milioni, miliardi) e un quadro simile per i valori frazionari (decimi, millesimi, milionesimi). A differenza dei metodi di inferenza posizionale, TST offre un segnale di gradiente affidabile per una maggiore stabilità nell'addestramento del modello. Sono suggerite due varianti di implementazione, incluso un metodo basato sul vocabolario che può aggiungere fino a 10.000 token fissi a un vocabolario esistente. Questa ricerca è stata condivisa su arXiv con l'identificatore 2604.11582v2, classificata sotto il tipo di annuncio replace-cross.

Fatti principali

  • La Tokenizzazione Suffisso Triadico (TST) è un nuovo metodo di tokenizzazione per il ragionamento numerico nei LLM
  • La tokenizzazione sublessicale standard frammenta i numeri in modo incoerente, causando la perdita della struttura posizionale e decimale
  • La TST partiziona le cifre in triadi di tre cifre con marcatori di magnitudine espliciti
  • Lo schema crea una mappatura fissa tra suffissi e ordini di magnitudine per le parti intere
  • Un sistema parallelo gestisce la profondità frazionaria con marcatori replicati
  • La TST fornisce un segnale di gradiente coerente per una convergenza stabile
  • Sono proposte due varianti di implementazione, incluso un approccio basato sul vocabolario
  • La ricerca è stata annunciata su arXiv con l'identificatore 2604.11582v2 sotto il tipo replace-cross

Entità

Istituzioni

  • arXiv

Fonti