Orthrus: Diffusione a Doppia Vista per la Generazione Parallela di LLM
Un nuovo framework chiamato Orthrus è stato sviluppato da ricercatori, unendo l'output preciso dei modelli linguistici autoregressivi (LLM) con le capacità di generazione rapida di token dei modelli di diffusione. La decodifica autoregressiva tradizionale limita l'inferenza ad alto rendimento, mentre i modelli linguistici di diffusione affrontano sfide come cali di prestazioni e costi di addestramento elevati. Orthrus potenzia un LLM statico incorporando un modulo leggero e addestrabile, consentendo una prospettiva di diffusione parallela oltre all'approccio autoregressivo convenzionale. Entrambe le prospettive utilizzano la stessa cache Key-Value (KV) ad alta fedeltà, garantendo una fedeltà di generazione accurata durante l'elaborazione parallela. Questo framework è progettato per un'integrazione fluida nei Transformers attuali. Il documento di ricerca è disponibile su arXiv, riferimento 2605.12825.
Fatti principali
- Orthrus è un framework a doppia architettura per la generazione parallela di token.
- Unifica i LLM autoregressivi e i modelli di diffusione.
- La decodifica autoregressiva standard è un collo di bottiglia per l'inferenza ad alto rendimento.
- I modelli linguistici di diffusione soffrono di degrado delle prestazioni e alti costi di addestramento.
- Orthrus potenzia un LLM congelato con un modulo leggero e addestrabile.
- Entrambe le viste accedono alla stessa cache KV ad alta fedeltà.
- Il framework si integra nei Transformers esistenti.
- Il documento è su arXiv con riferimento 2605.12825.
Entità
Istituzioni
- arXiv