Il framework FLUID unisce modelli autoregressivi e diffusivi per una generazione testuale efficiente
I ricercatori propongono FLUID, un framework che adatta i backbone autoregressivi (AR) ai modelli di diffusione per una generazione parallela efficiente del testo. Imponendo un allineamento strettamente causale, FLUID consente l'inizializzazione da checkpoint GPT standard, evitando il pre-addestramento da zero. Il meccanismo Elastic Horizons regola dinamicamente i passi di denoising in base alla densità locale di informazioni. Gli esperimenti mostrano prestazioni all'avanguardia con una riduzione dei costi di addestramento di ordini di grandezza.
Fatti principali
- FLUID adatta i backbone AR ai modelli di diffusione
- L'allineamento strettamente causale consente il riutilizzo dei checkpoint GPT
- Elastic Horizons modula dinamicamente i passi di denoising
- Raggiunge prestazioni all'avanguardia
- Riduce i costi di addestramento di ordini di grandezza
- Pubblicato su arXiv come 2605.27387
- Tipo di annuncio incrociato
Entità
Istituzioni
- arXiv