Modelli di Diffusione Mascherati Auto-Condizionati Migliorano la Generazione di Sequenze Discrete
Un nuovo approccio chiamato Modelli di Diffusione Mascherati Auto-Condizionati (SCMDM) è stato pubblicato su arXiv. A differenza dei tradizionali modelli di diffusione mascherati (MDM) che creano sequenze attraverso una ripetuta denoising, SCMDM affronta un problema chiave: quando un token è ancora mascherato dopo un aggiornamento inverso, il modello perde l'opportunità di prevedere il suo stato pulito. Ciò può portare a problemi nel raffinamento degli output attraverso i passaggi. SCMDM risolve questo problema utilizzando le precedenti previsioni dello stato pulito del modello per ogni passo di denoising, richiedendo solo lievi modifiche al framework esistente. Questo metodo elimina la necessità di percorsi complicati o valutazioni extra durante il campionamento, rappresentando un miglioramento significativo rispetto alle tecniche di auto-condizionamento più vecchie e dispendiose in termini di risorse. Puoi consultarlo su arXiv con ID 2604.26985v1.
Fatti principali
- Metodo chiamato Modelli di Diffusione Mascherati Auto-Condizionati (SCMDM)
- Proposto come adattamento post-addestramento per modelli di diffusione mascherati (MDM)
- Affronta la limitazione per cui le posizioni ancora mascherate vengono inferite solo dal token di maschera
- Condiziona ogni passo di denoising sulle precedenti previsioni dello stato pulito del modello stesso
- Richiede modifiche architetturali minime
- Nessun percorso ricorrente di stato latente introdotto
- Nessun modello di riferimento ausiliario necessario
- Nessuna valutazione extra del denoiser durante il campionamento
Entità
Istituzioni
- arXiv