Steering Adattivo per Modelli Linguistici a Diffusione Discreta
Un nuovo studio da arXiv (2605.10971) rivela che un intervento uniforme durante i passaggi di denoising degrada la qualità nei modelli linguistici a diffusione discreta (DLM), specialmente quando si guidano più attributi. Utilizzando autoencoder sparsi su quattro DLM (da 124M a 8B parametri), i ricercatori hanno scoperto che gli attributi si impegnano secondo programmi distinti: il topic entro il primo 2% del denoising, il sentiment oltre il 20%. Propongono uno scheduler adattivo che concentra gli interventi sui passaggi critici, migliorando la generazione controllata. L'articolo è scritto da ricercatori di un'istituzione non divulgata ed è stato pubblicato il 10 maggio 2025.
Fatti principali
- I modelli linguistici a diffusione discreta generano testo denoising iterativamente tutte le posizioni in parallelo.
- Un intervento uniforme a ogni passo di denoising degrada la qualità.
- Il danno si accumula quando più attributi vengono guidati congiuntamente.
- Autoencoder sparsi sono stati addestrati su quattro DLM (124M-8B parametri).
- Il topic si impegna entro il primo 2% del denoising.
- Il sentiment emerge gradualmente nel 20% del processo.
- Uno scheduler adattivo concentra gli interventi sui passaggi critici.
- L'articolo è disponibile su arXiv con ID 2605.10971.
Entità
—