ConfigSpec Framework Ottimizza il Servizio di LLM Distribuiti nei Sistemi Edge-Cloud
ConfigSpec ha sviluppato un framework per la selezione delle configurazioni basata sul profiling, finalizzato a servire modelli linguistici di grandi dimensioni (LLM) speculativi distribuiti sia in ambienti edge che cloud. Questo sistema affronta i problemi di implementazione nel mondo reale gestendo un complesso insieme di configurazioni, che include varianti del modello draft, livelli di quantizzazione, lunghezze speculative e diversi dispositivi edge. Profilando questi dispositivi e allineandosi con i target draft, ConfigSpec valuta la produttività di drafting, i tassi di accettazione e il consumo energetico per analizzare tre metriche critiche: goodput, efficienza dei costi di verifica ed efficienza energetica. La ricerca condotta su tre diverse piattaforme edge e due famiglie di LLM evidenzia ottimi conflittuali, dove il modello draft più piccolo e veloce raggiunge il massimo goodput a lunghezze speculative specifiche del dispositivo. Questo framework facilita l'inferenza collaborativa degli LLM disaccoppiando la generazione leggera di token dal processo intensivo di verifica, basandosi su sistemi precedenti che hanno dimostrato vantaggi in termini di prestazioni e costi. Questo studio è dettagliato nella preprint arXiv 2604.09722v1, sottolineando l'ottimizzazione del decoding speculativo distribuito per applicazioni pratiche.
Fatti principali
- ConfigSpec è un framework di selezione delle configurazioni per il servizio distribuito di LLM speculativi
- Profilizza dispositivi edge e l'allineamento draft-target per modellare le metriche di prestazione
- Il sistema valuta goodput, efficienza dei costi di verifica ed efficienza energetica
- L'analisi rivela ottimi strutturalmente conflittuali tra diversi obiettivi di ottimizzazione
- Il goodput è massimizzato dal modello draft più piccolo e veloce a lunghezze speculative dipendenti dal dispositivo
- Il framework affronta un ampio spazio di configurazione che include varianti del modello draft e livelli di quantizzazione
- La ricerca ha coinvolto tre piattaforme edge e due famiglie di LLM
- Il decoding speculativo consente l'inferenza collaborativa degli LLM tra cloud e edge separando il drafting dalla verifica
Entità
—