Fast Byte Latent Transformer accelera i modelli linguistici a livello di byte

ai-technology · 2026-05-11

Un nuovo articolo su arXiv introduce tecniche per accelerare i modelli linguistici (LM) a livello di byte, che eguagliano le prestazioni a livello di token senza vocabolari di sottoparole ma soffrono di una lenta generazione autoregressiva. Il Byte Latent Transformer (BLT) viene potenziato con BLT Diffusion (BLT-D), addestrato con un obiettivo di diffusione a blocchi insieme alla previsione del byte successivo, consentendo la generazione parallela di byte per passo di decodifica. Due estensioni ispirate alla decodifica speculativa, BLT Self-speculation (BLT-S) e un'altra, scambiano velocità per qualità facendo sì che il decodificatore locale produca byte oltre i normali confini dei patch. L'articolo è scritto da ricercatori e pubblicato su arXiv con ID 2605.08044.

Fatti principali

I LM a livello di byte eguagliano le prestazioni a livello di token senza vocabolari di sottoparole.
BLT Diffusion (BLT-D) è una nuova variante del modello addestrata con un obiettivo di diffusione a blocchi.
BLT-D genera più byte in parallelo per ogni passo di decodifica.
BLT Self-speculation (BLT-S) estende la decodifica speculativa a BLT.
Il decodificatore locale di BLT-S continua a generare oltre i normali confini dei patch per produrre byte.
L'articolo è disponibile su arXiv con ID 2605.08044.
Le tecniche mirano a ridurre il numero di passaggi forward necessari per la generazione.
L'articolo propone due estensioni ispirate alla decodifica speculativa.

Fast Byte Latent Transformer accelera i modelli linguistici a livello di byte

Fatti principali

Entità

Istituzioni

Fonti