ARTFEED — Contemporary Art Intelligence

Fast Byte Latent Transformer accelera i modelli linguistici a livello di byte

ai-technology · 2026-05-11

Un nuovo articolo su arXiv introduce tecniche per accelerare i modelli linguistici (LM) a livello di byte, che eguagliano le prestazioni a livello di token senza vocabolari di sottoparole ma soffrono di una lenta generazione autoregressiva. Il Byte Latent Transformer (BLT) viene potenziato con BLT Diffusion (BLT-D), addestrato con un obiettivo di diffusione a blocchi insieme alla previsione del byte successivo, consentendo la generazione parallela di byte per passo di decodifica. Due estensioni ispirate alla decodifica speculativa, BLT Self-speculation (BLT-S) e un'altra, scambiano velocità per qualità facendo sì che il decodificatore locale produca byte oltre i normali confini dei patch. L'articolo è scritto da ricercatori e pubblicato su arXiv con ID 2605.08044.

Fatti principali

  • I LM a livello di byte eguagliano le prestazioni a livello di token senza vocabolari di sottoparole.
  • BLT Diffusion (BLT-D) è una nuova variante del modello addestrata con un obiettivo di diffusione a blocchi.
  • BLT-D genera più byte in parallelo per ogni passo di decodifica.
  • BLT Self-speculation (BLT-S) estende la decodifica speculativa a BLT.
  • Il decodificatore locale di BLT-S continua a generare oltre i normali confini dei patch per produrre byte.
  • L'articolo è disponibile su arXiv con ID 2605.08044.
  • Le tecniche mirano a ridurre il numero di passaggi forward necessari per la generazione.
  • L'articolo propone due estensioni ispirate alla decodifica speculativa.

Entità

Istituzioni

  • arXiv

Fonti