PALS: Servizio LLM Consapevole della Potenza per Modelli Mixture-of-Experts

ai-technology · 2026-05-22

I ricercatori hanno introdotto un nuovo sistema chiamato PALS (Power-Aware LLM Serving), che utilizza i limiti di potenza della GPU come risorsa gestibile per migliorare l'efficienza energetica durante l'inferenza di modelli linguistici di grandi dimensioni. Integrato nel framework vLLM, PALS combina semplici modelli offline di prestazioni energetiche con un controller basato su feedback per selezionare impostazioni che raggiungono obiettivi di throughput riducendo il consumo energetico. Questo sistema non richiede alcun riaddestramento del modello o modifiche alle API ed è stato validato su configurazioni multi-GPU utilizzando sia modelli densi che mixture-of-experts (MoE), mostrando significativi miglioramenti in termini di efficienza energetica.

Fatti principali

1. PALS è un runtime consapevole della potenza per il servizio LLM.
2. Tratta i limiti di potenza della GPU come un parametro di controllo di prima classe.
3. Ottimizza congiuntamente i limiti di potenza con parametri software come la dimensione del batch.
4. Il sistema utilizza modelli leggeri offline di prestazioni energetiche.
5. Impiega un controller basato su feedback per selezionare le configurazioni.
6. PALS è implementato all'interno del framework vLLM.
7. Non richiede riaddestramento del modello o modifiche alle API.
8. Testato su sistemi multi-GPU con modelli densi e MoE.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21