Caracal: Architettura Efficiente per LLM che Utilizza la Trasformata di Fourier

ai-technology · 2026-05-04

Caracal è una nuova architettura per modelli linguistici di grandi dimensioni che sostituisce il meccanismo di attenzione a costo quadratico con un modulo Multi-Head Fourier (MHF) a efficienza parametrica, raggiungendo una complessità O(L log L). Utilizza la Trasformata Veloce di Fourier (FFT) per il mixing delle sequenze e introduce una tecnica di masking causale nel dominio della frequenza tramite padding asimmetrico e troncamento per consentire la generazione autoregressiva. A differenza di modelli specifici per hardware come Mamba, Caracal si basa su operatori di libreria standard, garantendo portabilità. Le valutazioni mostrano prestazioni competitive rispetto ai modelli esistenti. L'articolo è disponibile su arXiv.

Fatti principali

Caracal sostituisce l'attenzione con un modulo Multi-Head Fourier (MHF).
La complessità è O(L log L) invece che quadratica.
Utilizza la Trasformata Veloce di Fourier (FFT) per il mixing delle sequenze.
Applica il masking causale nel dominio della frequenza tramite padding asimmetrico e troncamento.
Non si basa su implementazioni specifiche per hardware.
Utilizza operatori di libreria standard per la portabilità.
Le valutazioni mostrano prestazioni competitive.
Articolo disponibile su arXiv (2605.00292).

Caracal: Architettura Efficiente per LLM che Utilizza la Trasformata di Fourier

Fatti principali

Entità

Istituzioni

Fonti