La località a blocchi migliora l'addestramento dei modelli linguistici a diffusione mascherata

ai-technology · 2026-04-30

Un nuovo studio su arXiv (2604.24832) analizza quanto bene i modelli linguistici a diffusione mascherata (MDM) si addestrano rispetto ai grandi modelli linguistici autoregressivi (AR-LLM). I risultati hanno rivelato che gli MDM che utilizzano il mascheratura casuale affrontano difficoltà con la regressione lineare e mostrano una grande variabilità nel path-finding su grafi, ma ottengono risultati migliori nel Sudoku rispetto agli AR-LLM. Per affrontare queste carenze, i ricercatori hanno sviluppato due modelli chiamati Jigsaw e Scatter, che utilizzano un approccio da sinistra a destra all'interno dei blocchi pur consentendo un raffinamento iterativo. In particolare, Jigsaw mostra una stabilità simile agli AR-LLM nei compiti di regressione lineare e si comporta bene anche nel Sudoku. Puoi consultare l'articolo completo su arXiv.

Fatti principali

L'articolo arXiv 2604.24832 studia i modelli linguistici a diffusione mascherata (MDM).
Gli MDM standard con mascheratura casuale falliscono nella regressione lineare.
Gli MDM mostrano alta varianza nel path-finding su grafi.
Gli MDM superano gli AR-LLM nel Sudoku.
Due nuovi modelli proposti: Jigsaw e Scatter.
Jigsaw e Scatter utilizzano la località a blocchi con autoregressione all'interno dei blocchi.
Jigsaw eguaglia la stabilità degli AR-LLM nella regressione lineare.
Jigsaw rimane forte nel Sudoku.

La località a blocchi migliora l'addestramento dei modelli linguistici a diffusione mascherata

Fatti principali

Entità

Istituzioni

Fonti