Decodifica Auto-Speculativa Consapevole dei Componenti per Modelli Linguistici Ibridi

ai-technology · 2026-05-06

Una nuova tecnica chiamata decodifica auto-speculativa consapevole dei componenti è stata svelata dai ricercatori, segnando la prima istanza di sfruttamento della diversità architettonica nei modelli linguistici ibridi. Questo metodo identifica il sottografo SSM/attenzione lineare come bozza interna a costo zero, eliminando la necessità di un bozzista esterno. La valutazione è stata condotta su Falcon-H1 (che combina Mamba-2 parallelo e attenzione per strato) e Qwen3.5 (con strati lineari e di attenzione sequenziali intervallati), con Qwen2.5 come controllo per i puri Transformers. I risultati indicano che gli ibridi paralleli raggiungono tassi di accettazione α = 0.68 con lunghezza di bozza k=2 durante la decodifica greedy, mentre gli ibridi sequenziali raggiungono solo α = 0.038, rivelando una differenza di 18x dovuta a fattori architetturali. Questo progresso amplia l'ambito della decodifica auto-speculativa oltre i Transformers uniformi.

Fatti principali

La decodifica auto-speculativa consapevole dei componenti è introdotta per modelli linguistici ibridi.
Isola il sottografo SSM/attenzione lineare come bozza interna a costo zero.
Valutata su Falcon-H1 (architettura parallela) e Qwen3.5 (architettura sequenziale).
Il puro Transformer Qwen2.5 è stato usato come controllo.
Gli ibridi paralleli raggiungono un tasso di accettazione α = 0.68 con lunghezza di bozza k=2 in decodifica greedy.
Gli ibridi sequenziali producono α = 0.038, un divario di 18x.
Primo metodo a sfruttare l'eterogeneità architetturale interna per la decodifica auto-speculativa.
Pubblicato su arXiv con ID 2605.01106.

Decodifica Auto-Speculativa Consapevole dei Componenti per Modelli Linguistici Ibridi

Fatti principali

Entità

Istituzioni

Fonti