Qrita: Algoritmo Efficiente per il Campionamento Top-k e Top-p nei LLM
I ricercatori propongono Qrita, un nuovo algoritmo per il campionamento efficiente Top-k e Top-p nei modelli linguistici di grandi dimensioni. I metodi esistenti si basano sull'ordinamento, causando un elevato overhead della GPU, o su approcci stocastici che alterano gli output. Qrita utilizza il troncamento e la selezione basati su pivot con due tecniche chiave: il troncamento sigma basato su Gauss per ridurre lo spazio di ricerca del vocabolario, e la ricerca quaternaria dei pivot con gestione delle duplicazioni per dimezzare le iterazioni e garantire output deterministici. Implementato in Triton, Qrita supera i kernel di SGLang e FlashInfer nei motori di esecuzione LLM ad alte prestazioni. Il lavoro affronta una sfida significativa nel campionamento dei modelli per vocabolari di grandi dimensioni.
Fatti principali
- 1. Qrita è un algoritmo Top-k e Top-p basato su troncamento e selezione tramite pivot.
- 2. Utilizza il troncamento sigma basato su Gauss per ridurre lo spazio di ricerca del vocabolario.
- 3. La ricerca quaternaria dei pivot con gestione delle duplicazioni dimezza le iterazioni di ricerca dei pivot.
- 4. Qrita garantisce output deterministici.
- 5. L'implementazione utilizza Triton.
- 6. Valutato rispetto ai kernel di SGLang e FlashInfer.
- 7. Migliora le prestazioni rispetto agli approcci esistenti.
- 8. Affronta il sovraccarico di calcolo e memoria della GPU dei metodi basati sull'ordinamento.
Entità
Istituzioni
- SGLang
- FlashInfer
- Triton