ARTFEED — Contemporary Art Intelligence

LoopQ: Quantizzazione Consapevole del Loop per Modelli Transformer Ricorsivi

other · 2026-05-20

Un nuovo framework di quantizzazione chiamato LoopQ affronta la fragilità dei modelli linguistici a loop (LoopLM) sotto la quantizzazione post-addestramento (PTQ). I LoopLM migliorano l'efficienza dei parametri riutilizzando ricorsivamente i blocchi Transformer, ma questo riutilizzo causa spostamenti di distribuzione, disallineamenti di stato e accumulo di errori durante la quantizzazione. LoopQ introduce un backbone quantizzato condiviso con adattamenti leggeri che includono scaling dell'attivazione, trasformazione selettiva, allineamento dello stato tra loop e ottimizzazione consapevole della traiettoria. Esperimenti su sette benchmark mostrano che con quantizzazione W4A4, LoopQ migliora l'accuratezza media downstream del 68,8%.

Fatti principali

  • LoopQ è un framework PTQ consapevole del loop per modelli linguistici a loop.
  • I LoopLM riutilizzano ricorsivamente i blocchi Transformer per l'efficienza dei parametri.
  • Tre sfide identificate: spostamento di distribuzione, riutilizzo dello stato, accumulo ricorsivo di errori.
  • LoopQ utilizza scaling dell'attivazione, trasformazione selettiva, allineamento dello stato tra loop e ottimizzazione consapevole della traiettoria.
  • Sotto quantizzazione W4A4, LoopQ migliora l'accuratezza media downstream del 68,8%.
  • Esperimenti condotti su sette benchmark.
  • L'articolo è disponibile su arXiv con ID 2605.16343.
  • Questo è il primo studio sistematico della quantizzazione nei LoopLM.

Entità

Istituzioni

  • arXiv

Fonti