Qrita: Algoritmo Efficiente per il Campionamento Top-k e Top-p nei LLM

ai-technology · 2026-05-27

I ricercatori propongono Qrita, un nuovo algoritmo per il campionamento efficiente Top-k e Top-p nei modelli linguistici di grandi dimensioni. I metodi esistenti si basano sull'ordinamento, causando un elevato overhead della GPU, o su approcci stocastici che alterano gli output. Qrita utilizza il troncamento e la selezione basati su pivot con due tecniche chiave: il troncamento sigma basato su Gauss per ridurre lo spazio di ricerca del vocabolario, e la ricerca quaternaria dei pivot con gestione delle duplicazioni per dimezzare le iterazioni e garantire output deterministici. Implementato in Triton, Qrita supera i kernel di SGLang e FlashInfer nei motori di esecuzione LLM ad alte prestazioni. Il lavoro affronta una sfida significativa nel campionamento dei modelli per vocabolari di grandi dimensioni.

Fatti principali

1. Qrita è un algoritmo Top-k e Top-p basato su troncamento e selezione tramite pivot.
2. Utilizza il troncamento sigma basato su Gauss per ridurre lo spazio di ricerca del vocabolario.
3. La ricerca quaternaria dei pivot con gestione delle duplicazioni dimezza le iterazioni di ricerca dei pivot.
4. Qrita garantisce output deterministici.
5. L'implementazione utilizza Triton.
6. Valutato rispetto ai kernel di SGLang e FlashInfer.
7. Migliora le prestazioni rispetto agli approcci esistenti.
8. Affronta il sovraccarico di calcolo e memoria della GPU dei metodi basati sull'ordinamento.

Qrita: Algoritmo Efficiente per il Campionamento Top-k e Top-p nei LLM

Fatti principali

Entità

Istituzioni

Fonti