RQ-MoE: Quantizzazione Residua tramite Miscela di Esperti per una Compressione Vettoriale Efficiente Dipendente dall'Input

other · 2026-05-16

Un nuovo framework per la quantizzazione vettoriale chiamato RQ-MoE (Quantizzazione Residua tramite Miscela di Esperti) è stato sviluppato dai ricercatori. Questo metodo innovativo integra una miscela di esperti a due livelli con una quantizzazione a doppio flusso, consentendo l'adattamento del codebook in base all'input. Ciò permette la creazione dinamica dei codebook e separa le istruzioni dalla quantizzazione, facilitando la decodifica parallela. In particolare, RQ-MoE può recuperare la Quantizzazione Residua standard e QINCo come casi speciali vincolati. Inoltre, sono state stabilite linee guida per determinare la dimensionalità degli esperti. Esperimenti approfonditi convalidano la capacità del framework di comprimere embeddings ad alta dimensionalità, superando le sfide poste dai codebook statici e dalle dipendenze sequenziali presenti nelle tecniche attuali.

Fatti principali

1. RQ-MoE combina una MoE a due livelli con una quantizzazione a doppio flusso.
2. Consente l'adattamento del codebook dipendente dall'input per la quantizzazione vettoriale.
3. RQ-MoE facilita la decodifica parallela separando l'istruzione dalla quantizzazione.
4. La Quantizzazione Residua standard e QINCo sono casi speciali di RQ-MoE.
5. Viene derivata una linea guida per impostare la dimensionalità degli esperti.
6. Esperimenti approfonditi mostrano l'efficacia del framework.
7. Il lavoro è pubblicato su arXiv con ID 2605.14359.
8. Il metodo affronta le limitazioni dei codebook statici e delle dipendenze sequenziali.

RQ-MoE: Quantizzazione Residua tramite Miscela di Esperti per una Compressione Vettoriale Efficiente Dipendente dall'Input

Fatti principali

Entità

Istituzioni

Fonti