ARTFEED — Contemporary Art Intelligence

Caracal: Architettura Efficiente per LLM che Utilizza la Trasformata di Fourier

ai-technology · 2026-05-04

Caracal è una nuova architettura per modelli linguistici di grandi dimensioni che sostituisce il meccanismo di attenzione a costo quadratico con un modulo Multi-Head Fourier (MHF) a efficienza parametrica, raggiungendo una complessità O(L log L). Utilizza la Trasformata Veloce di Fourier (FFT) per il mixing delle sequenze e introduce una tecnica di masking causale nel dominio della frequenza tramite padding asimmetrico e troncamento per consentire la generazione autoregressiva. A differenza di modelli specifici per hardware come Mamba, Caracal si basa su operatori di libreria standard, garantendo portabilità. Le valutazioni mostrano prestazioni competitive rispetto ai modelli esistenti. L'articolo è disponibile su arXiv.

Fatti principali

  • Caracal sostituisce l'attenzione con un modulo Multi-Head Fourier (MHF).
  • La complessità è O(L log L) invece che quadratica.
  • Utilizza la Trasformata Veloce di Fourier (FFT) per il mixing delle sequenze.
  • Applica il masking causale nel dominio della frequenza tramite padding asimmetrico e troncamento.
  • Non si basa su implementazioni specifiche per hardware.
  • Utilizza operatori di libreria standard per la portabilità.
  • Le valutazioni mostrano prestazioni competitive.
  • Articolo disponibile su arXiv (2605.00292).

Entità

Istituzioni

  • arXiv

Fonti