Il rimasking Token-to-Mask migliora i modelli linguistici a diffusione discreta
Un nuovo metodo senza addestramento chiamato Token-to-Mask (T2M) affronta le limitazioni dei modelli linguistici a diffusione mascherata discreta come LLaDA. T2M sostituisce il meccanismo di editing Token-to-Token (T2T) introdotto in LLaDA2.1, che sostituisce direttamente i token sospettati di errore. T2M riporta tali token allo stato di maschera, consentendo al processo di diffusione di ripredirli in un contesto più pulito. L'approccio disaccoppia il rilevamento degli errori dalla sostituzione, evita di contaminare il contesto di generazione ed elimina la discrepanza di rumore tra addestramento e inferenza causata da errori sistematici generati dal modello. Gli autori progettano e convalidano empiricamente tre strategie complementari di rilevamento degli errori. L'articolo è disponibile su arXiv con identificativo 2605.26436.
Fatti principali
- Il rimasking Token-to-Mask (T2M) è un metodo senza addestramento.
- T2M sostituisce l'editing Token-to-Token (T2T) nei modelli a diffusione mascherata discreta.
- T2M riporta i token sospettati di errore allo stato di maschera.
- T2M affronta le limitazioni dell'editing T2T: accoppiamento del rilevamento degli errori con la sostituzione, contaminazione del contesto e discrepanza di rumore.
- Vengono proposte e convalidate tre strategie complementari di rilevamento degli errori.
- L'articolo è disponibile su arXiv: 2605.26436.
- LLaDA è un modello linguistico a diffusione mascherata discreta.
- LLaDA2.1 ha introdotto l'editing T2T.
Entità
Istituzioni
- arXiv