Sebastian Raschka Esplora Architetture LLM Alternative Oltre i Trasformatori Standard

publication · 2026-04-14

L'articolo di Sebastian Raschka esamina le alternative emergenti ai grandi modelli linguistici basati su trasformatori autoregressivi standard. Mentre modelli come DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, gpt-oss, GLM-4.5, GLM-4.6 e MiniMax-M2 dominano il panorama open-weight, diversi approcci innovativi hanno guadagnato trazione. Gli ibridi di attenzione lineare, tra cui Qwen3-Next e Kimi Linear, impiegano meccanismi come il Gated DeltaNet per ottenere una scalabilità computazionale lineare con la lunghezza della sequenza, offrendo riduzioni significative della KV cache e miglioramenti fino a 6x nella velocità di decodifica. I modelli di diffusione testuale, come quelli esplorati nel paper LLaDA e nel prossimo Gemini Diffusion di Google, generano token in parallelo attraverso processi iterativi di denoising, promettendo tempi di risposta più rapidi. I Code World Models rappresentano un approccio distinto focalizzato sul miglioramento delle prestazioni di modellazione imparando a simulare l'esecuzione del codice e a prevedere i cambiamenti di stato del programma. Piccoli trasformatori ricorsivi come l'Hierarchical Reasoning Model e il Tiny Recursive Model dimostrano che architetture compatte e specializzate possono ottenere un ragionamento solido su enigmi come la sfida ARC attraverso un affinamento iterativo autonomo. Raschka ha presentato questi argomenti alla PyTorch Conference 2025, con un intervento che sarà caricato sul canale YouTube ufficiale di PyTorch. L'articolo funge da panoramica introduttiva, riconoscendo che ogni categoria architetturale merita un trattamento individuale più approfondito.

Fatti principali

Sebastian Raschka ha redatto una panoramica completa delle architetture LLM alternative.
L'articolo tratta ibridi di attenzione lineare, modelli di diffusione testuale, code world models e piccoli trasformatori ricorsivi.
Raschka ha presentato questi argomenti alla PyTorch Conference 2025.
Gli ibridi di attenzione lineare come Qwen3-Next e Kimi Linear utilizzano Gated DeltaNet per l'efficienza.
I modelli di diffusione testuale generano token in parallelo tramite denoising iterativo.
I Code World Models mirano a migliorare la comprensione del codice simulandone l'esecuzione.
Piccoli trasformatori ricorsivi come HRM e TRM eccellono in compiti di risoluzione di enigmi.
Il pezzo è presentato come seguito del precedente articolo di Raschka 'The Big LLM Architecture Comparison'.

Entità

Artisti

Sebastian Raschka

Istituzioni

PyTorch Conference 2025
PyTorch YouTube channel
Google
DeepSeek
MiniMax
Qwen
Kimi
Gemini
LLaDA
ARC challenge
HRM
TRM

Fonti

Sebastian Raschka — 2025-11-04