ARTFEED — Contemporary Art Intelligence

I Token di Memoria si Rivelano Essenziali per il Ragionamento del Trasformatore Universale

ai-technology · 2026-04-27

Uno studio recente pubblicato su arXiv (2604.21999) rivela che i token di memoria appresi sono essenziali per un Trasformatore Universale a blocco singolo con Tempo di Calcolo Adattivo per affrontare Sudoku-Extreme, un benchmark per il ragionamento combinatorio. In ogni configurazione testata—coprendo tre semi, vari conteggi di token, due metodi di inizializzazione e sia elaborazione ACT che a profondità fissa—nessuna senza token di memoria ha mostrato prestazioni significative. Il numero ideale di token di memoria rivela un netto limite inferiore: T=0 fallisce costantemente, T=4 è marginalmente efficace, mentre T=8 risolve in modo affidabile puzzle a 81 celle. Le prestazioni si stabilizzano da T=8 a T=32 (accuratezza di corrispondenza esatta del 57,4% ± 0,7%) prima di deteriorarsi a T=64 a causa della diluizione dell'attenzione. Lo studio ha anche scoperto un problema di inizializzazione del router che ha portato al fallimento di oltre il 70% delle esecuzioni di addestramento, con inizializzazioni sia a bias zero (p ~ 0,5) che a bias positivo di Graves (p ~ 0,73) che causano l'arresto dei token dopo circa 2 passi.

Fatti principali

  • I token di memoria sono empiricamente necessari per le prestazioni del Trasformatore Universale su Sudoku-Extreme.
  • Il numero ottimale di token mostra una soglia inferiore netta: T=0 fallisce, T=4 è borderline, T=8 ha successo.
  • Un plateau stabile da T=8 a T=32 produce un'accuratezza di corrispondenza esatta del 57,4% ± 0,7%.
  • Le prestazioni crollano a T=64 a causa della diluizione dell'attenzione.
  • Una trappola di inizializzazione del router causa il fallimento di oltre il 70% delle esecuzioni di addestramento.
  • L'inizializzazione predefinita a bias zero (p ~ 0,5) e quella a bias positivo di Graves (p ~ 0,73) causano entrambe un arresto precoce.
  • Lo studio ha utilizzato 3 semi, molteplici conteggi di token, due schemi di inizializzazione, elaborazione ACT e a profondità fissa.
  • La ricerca è stata pubblicata su arXiv con identificatore 2604.21999.

Entità

Istituzioni

  • arXiv

Fonti