LoopQ: Quantizzazione Consapevole del Loop per Modelli Transformer Ricorsivi
Un nuovo framework di quantizzazione chiamato LoopQ affronta la fragilità dei modelli linguistici a loop (LoopLM) sotto la quantizzazione post-addestramento (PTQ). I LoopLM migliorano l'efficienza dei parametri riutilizzando ricorsivamente i blocchi Transformer, ma questo riutilizzo causa spostamenti di distribuzione, disallineamenti di stato e accumulo di errori durante la quantizzazione. LoopQ introduce un backbone quantizzato condiviso con adattamenti leggeri che includono scaling dell'attivazione, trasformazione selettiva, allineamento dello stato tra loop e ottimizzazione consapevole della traiettoria. Esperimenti su sette benchmark mostrano che con quantizzazione W4A4, LoopQ migliora l'accuratezza media downstream del 68,8%.
Fatti principali
- LoopQ è un framework PTQ consapevole del loop per modelli linguistici a loop.
- I LoopLM riutilizzano ricorsivamente i blocchi Transformer per l'efficienza dei parametri.
- Tre sfide identificate: spostamento di distribuzione, riutilizzo dello stato, accumulo ricorsivo di errori.
- LoopQ utilizza scaling dell'attivazione, trasformazione selettiva, allineamento dello stato tra loop e ottimizzazione consapevole della traiettoria.
- Sotto quantizzazione W4A4, LoopQ migliora l'accuratezza media downstream del 68,8%.
- Esperimenti condotti su sette benchmark.
- L'articolo è disponibile su arXiv con ID 2605.16343.
- Questo è il primo studio sistematico della quantizzazione nei LoopLM.
Entità
Istituzioni
- arXiv