PARSE: La verifica parallela dei prefissi accelera l'inferenza dei LLM
Un nuovo framework chiamato PARSE (Parallel Prefix Speculative Engine) è stato sviluppato dai ricercatori per migliorare la velocità di inferenza dei grandi modelli linguistici (LLM) consentendo la verifica parallela dei prefissi a livello semantico. Le tecniche tradizionali di decodifica speculativa si basano su controlli a livello di token, richiedendo che il modello target verifichi i token uno alla volta, limitando sia la velocità che la lunghezza di accettazione. Al contrario, PARSE consente la verifica semantica senza la necessità di elaborazione sequenziale: permette al modello target di valutare l'accuratezza di più prefissi simultaneamente durante un singolo passaggio in avanti, utilizzando una maschera di attenzione specializzata per individuare il prefisso valido più grande. Questo approccio riduce i ritardi sequenziali e migliora la granularità di accettazione. L'articolo di ricerca è disponibile su arXiv con l'identificatore 2605.04263.
Fatti principali
- 1. PARSE sta per Parallel Prefix Speculative Engine.
- 2. Accelera l'inferenza dei LLM parallelizzando la verifica dei prefissi a livello semantico.
- 3. I metodi esistenti di decodifica speculativa sono limitati dall'equivalenza a livello di token.
- 4. PARSE utilizza una maschera di attenzione personalizzata per la verifica in un singolo passaggio in avanti.
- 5. Elimina il sovraccarico della verifica sequenziale.
- 6. Il framework aumenta la granularità di accettazione.
- 7. L'articolo è pubblicato su arXiv con ID 2605.04263.
- 8. L'approccio utilizza un modello bozza per generare proposte.
Entità
Istituzioni
- arXiv