La località a blocchi migliora l'addestramento dei modelli linguistici a diffusione mascherata
Un nuovo studio su arXiv (2604.24832) analizza quanto bene i modelli linguistici a diffusione mascherata (MDM) si addestrano rispetto ai grandi modelli linguistici autoregressivi (AR-LLM). I risultati hanno rivelato che gli MDM che utilizzano il mascheratura casuale affrontano difficoltà con la regressione lineare e mostrano una grande variabilità nel path-finding su grafi, ma ottengono risultati migliori nel Sudoku rispetto agli AR-LLM. Per affrontare queste carenze, i ricercatori hanno sviluppato due modelli chiamati Jigsaw e Scatter, che utilizzano un approccio da sinistra a destra all'interno dei blocchi pur consentendo un raffinamento iterativo. In particolare, Jigsaw mostra una stabilità simile agli AR-LLM nei compiti di regressione lineare e si comporta bene anche nel Sudoku. Puoi consultare l'articolo completo su arXiv.
Fatti principali
- L'articolo arXiv 2604.24832 studia i modelli linguistici a diffusione mascherata (MDM).
- Gli MDM standard con mascheratura casuale falliscono nella regressione lineare.
- Gli MDM mostrano alta varianza nel path-finding su grafi.
- Gli MDM superano gli AR-LLM nel Sudoku.
- Due nuovi modelli proposti: Jigsaw e Scatter.
- Jigsaw e Scatter utilizzano la località a blocchi con autoregressione all'interno dei blocchi.
- Jigsaw eguaglia la stabilità degli AR-LLM nella regressione lineare.
- Jigsaw rimane forte nel Sudoku.
Entità
Istituzioni
- arXiv