Fast Byte Latent Transformer accelera i modelli linguistici a livello di byte
Un nuovo articolo su arXiv introduce tecniche per accelerare i modelli linguistici (LM) a livello di byte, che eguagliano le prestazioni a livello di token senza vocabolari di sottoparole ma soffrono di una lenta generazione autoregressiva. Il Byte Latent Transformer (BLT) viene potenziato con BLT Diffusion (BLT-D), addestrato con un obiettivo di diffusione a blocchi insieme alla previsione del byte successivo, consentendo la generazione parallela di byte per passo di decodifica. Due estensioni ispirate alla decodifica speculativa, BLT Self-speculation (BLT-S) e un'altra, scambiano velocità per qualità facendo sì che il decodificatore locale produca byte oltre i normali confini dei patch. L'articolo è scritto da ricercatori e pubblicato su arXiv con ID 2605.08044.
Fatti principali
- I LM a livello di byte eguagliano le prestazioni a livello di token senza vocabolari di sottoparole.
- BLT Diffusion (BLT-D) è una nuova variante del modello addestrata con un obiettivo di diffusione a blocchi.
- BLT-D genera più byte in parallelo per ogni passo di decodifica.
- BLT Self-speculation (BLT-S) estende la decodifica speculativa a BLT.
- Il decodificatore locale di BLT-S continua a generare oltre i normali confini dei patch per produrre byte.
- L'articolo è disponibile su arXiv con ID 2605.08044.
- Le tecniche mirano a ridurre il numero di passaggi forward necessari per la generazione.
- L'articolo propone due estensioni ispirate alla decodifica speculativa.
Entità
Istituzioni
- arXiv