D-PACE: Perdita Dinamica per Decodifica Speculativa Parallela nei LLM
Un nuovo approccio di addestramento chiamato D-PACE (Dynamic Position-Aware Cross-Entropy) migliora la decodifica speculativa nei modelli linguistici di grandi dimensioni (LLM). Questa tecnica accelera l'inferenza utilizzando un modello bozza più piccolo per suggerire token, che un modello target più grande verifica simultaneamente. Mentre recenti bozze basate su diffusione come DFlash possono prevedere interi blocchi di token in un unico passaggio in avanti, gli attuali obiettivi multi-token utilizzano pesi statici dipendenti dalla posizione che rimangono invariati durante l'addestramento. D-PACE genera pesi per ogni posizione basandosi su un'approssimazione differenziabile della lunghezza prevista della bozza accettata, dirigendo l'attenzione dell'addestramento verso le posizioni che ostacolano l'accettazione. I test con modelli bozza Qwen3-4B su sei benchmark hanno rivelato tassi di accettazione migliorati e inferenza più rapida. Il documento è disponibile su arXiv con identificatore 2605.18810.
Fatti principali
- D-PACE è una perdita di entropia incrociata dinamica e sensibile alla posizione per la decodifica speculativa.
- Affronta gli schemi di ponderazione fissi negli obiettivi dei bozzisti multi-token.
- I pesi derivano da un surrogato differenziabile della lunghezza prevista della bozza accettata.
- Testato su sei benchmark con modelli bozza Qwen3-4B.
- Pubblicato su arXiv con ID 2605.18810.
- Relativo a bozzisti paralleli basati su diffusione come DFlash.
- Mira ad accelerare l'inferenza dei LLM migliorando i tassi di accettazione dei token.
- Il segnale di addestramento si sposta verso le posizioni che limitano l'accettazione man mano che il bozzista migliora.
Entità
Istituzioni
- arXiv