Decodifica Auto-Speculativa Consapevole dei Componenti per Modelli Linguistici Ibridi
Una nuova tecnica chiamata decodifica auto-speculativa consapevole dei componenti è stata svelata dai ricercatori, segnando la prima istanza di sfruttamento della diversità architettonica nei modelli linguistici ibridi. Questo metodo identifica il sottografo SSM/attenzione lineare come bozza interna a costo zero, eliminando la necessità di un bozzista esterno. La valutazione è stata condotta su Falcon-H1 (che combina Mamba-2 parallelo e attenzione per strato) e Qwen3.5 (con strati lineari e di attenzione sequenziali intervallati), con Qwen2.5 come controllo per i puri Transformers. I risultati indicano che gli ibridi paralleli raggiungono tassi di accettazione α = 0.68 con lunghezza di bozza k=2 durante la decodifica greedy, mentre gli ibridi sequenziali raggiungono solo α = 0.038, rivelando una differenza di 18x dovuta a fattori architetturali. Questo progresso amplia l'ambito della decodifica auto-speculativa oltre i Transformers uniformi.
Fatti principali
- La decodifica auto-speculativa consapevole dei componenti è introdotta per modelli linguistici ibridi.
- Isola il sottografo SSM/attenzione lineare come bozza interna a costo zero.
- Valutata su Falcon-H1 (architettura parallela) e Qwen3.5 (architettura sequenziale).
- Il puro Transformer Qwen2.5 è stato usato come controllo.
- Gli ibridi paralleli raggiungono un tasso di accettazione α = 0.68 con lunghezza di bozza k=2 in decodifica greedy.
- Gli ibridi sequenziali producono α = 0.038, un divario di 18x.
- Primo metodo a sfruttare l'eterogeneità architetturale interna per la decodifica auto-speculativa.
- Pubblicato su arXiv con ID 2605.01106.
Entità
Istituzioni
- arXiv