ARTFEED — Contemporary Art Intelligence

La località a blocchi migliora l'addestramento dei modelli linguistici a diffusione mascherata

ai-technology · 2026-04-30

Un nuovo studio su arXiv (2604.24832) analizza quanto bene i modelli linguistici a diffusione mascherata (MDM) si addestrano rispetto ai grandi modelli linguistici autoregressivi (AR-LLM). I risultati hanno rivelato che gli MDM che utilizzano il mascheratura casuale affrontano difficoltà con la regressione lineare e mostrano una grande variabilità nel path-finding su grafi, ma ottengono risultati migliori nel Sudoku rispetto agli AR-LLM. Per affrontare queste carenze, i ricercatori hanno sviluppato due modelli chiamati Jigsaw e Scatter, che utilizzano un approccio da sinistra a destra all'interno dei blocchi pur consentendo un raffinamento iterativo. In particolare, Jigsaw mostra una stabilità simile agli AR-LLM nei compiti di regressione lineare e si comporta bene anche nel Sudoku. Puoi consultare l'articolo completo su arXiv.

Fatti principali

  • L'articolo arXiv 2604.24832 studia i modelli linguistici a diffusione mascherata (MDM).
  • Gli MDM standard con mascheratura casuale falliscono nella regressione lineare.
  • Gli MDM mostrano alta varianza nel path-finding su grafi.
  • Gli MDM superano gli AR-LLM nel Sudoku.
  • Due nuovi modelli proposti: Jigsaw e Scatter.
  • Jigsaw e Scatter utilizzano la località a blocchi con autoregressione all'interno dei blocchi.
  • Jigsaw eguaglia la stabilità degli AR-LLM nella regressione lineare.
  • Jigsaw rimane forte nel Sudoku.

Entità

Istituzioni

  • arXiv

Fonti