GAR: Routing LLM Consapevole delle Emissioni di Carbonio tramite Ottimizzazione Vincolata
Un nuovo framework chiamato Green-Aware Routing (GAR) minimizza le emissioni di CO2 per richiesta di inferenza LLM, mantenendo al contempo obiettivi di accuratezza e latenza. GAR utilizza un'ottimizzazione vincolata adattiva e stimatori leggeri per decisioni di routing in tempo reale su pool di modelli eterogenei. L'articolo introduce GAR-PD, un algoritmo pratico di routing online primale-duale.
Fatti principali
- 1. GAR è un framework di ottimizzazione multi-obiettivo vincolata per il routing dell'inferenza LLM.
- 2. Minimizza le emissioni di CO2 per richiesta, soggetto a soglie minime di accuratezza e SLO di latenza al 95° percentile.
- 3. GAR impiega un'ottimizzazione delle soglie per dataset e stimatori leggeri per correttezza, latenza di coda ed emissioni di carbonio.
- 4. GAR-PD è un algoritmo pratico di routing online primale-duale.
- 5. I metodi di routing attuali raramente considerano l'uso sostenibile dell'energia e le emissioni di CO2.
- 6. L'intensità di carbonio della rete varia in base al tempo e alla regione.
- 7. I modelli differiscono significativamente nel consumo energetico.
- 8. L'articolo è pubblicato su arXiv con ID 2605.11603.
Entità
Istituzioni
- arXiv