LoopQ: Quantizzazione Consapevole del Loop per Modelli Transformer Ricorsivi

other · 2026-05-20

Un nuovo framework di quantizzazione chiamato LoopQ affronta la fragilità dei modelli linguistici a loop (LoopLM) sotto la quantizzazione post-addestramento (PTQ). I LoopLM migliorano l'efficienza dei parametri riutilizzando ricorsivamente i blocchi Transformer, ma questo riutilizzo causa spostamenti di distribuzione, disallineamenti di stato e accumulo di errori durante la quantizzazione. LoopQ introduce un backbone quantizzato condiviso con adattamenti leggeri che includono scaling dell'attivazione, trasformazione selettiva, allineamento dello stato tra loop e ottimizzazione consapevole della traiettoria. Esperimenti su sette benchmark mostrano che con quantizzazione W4A4, LoopQ migliora l'accuratezza media downstream del 68,8%.

Fatti principali

LoopQ è un framework PTQ consapevole del loop per modelli linguistici a loop.
I LoopLM riutilizzano ricorsivamente i blocchi Transformer per l'efficienza dei parametri.
Tre sfide identificate: spostamento di distribuzione, riutilizzo dello stato, accumulo ricorsivo di errori.
LoopQ utilizza scaling dell'attivazione, trasformazione selettiva, allineamento dello stato tra loop e ottimizzazione consapevole della traiettoria.
Sotto quantizzazione W4A4, LoopQ migliora l'accuratezza media downstream del 68,8%.
Esperimenti condotti su sette benchmark.
L'articolo è disponibile su arXiv con ID 2605.16343.
Questo è il primo studio sistematico della quantizzazione nei LoopLM.

LoopQ: Quantizzazione Consapevole del Loop per Modelli Transformer Ricorsivi

Fatti principali

Entità

Istituzioni

Fonti