ARTFEED — Contemporary Art Intelligence

GAR: Routing LLM Consapevole delle Emissioni di Carbonio tramite Ottimizzazione Vincolata

ai-technology · 2026-05-13

Un nuovo framework chiamato Green-Aware Routing (GAR) minimizza le emissioni di CO2 per richiesta di inferenza LLM, mantenendo al contempo obiettivi di accuratezza e latenza. GAR utilizza un'ottimizzazione vincolata adattiva e stimatori leggeri per decisioni di routing in tempo reale su pool di modelli eterogenei. L'articolo introduce GAR-PD, un algoritmo pratico di routing online primale-duale.

Fatti principali

  • 1. GAR è un framework di ottimizzazione multi-obiettivo vincolata per il routing dell'inferenza LLM.
  • 2. Minimizza le emissioni di CO2 per richiesta, soggetto a soglie minime di accuratezza e SLO di latenza al 95° percentile.
  • 3. GAR impiega un'ottimizzazione delle soglie per dataset e stimatori leggeri per correttezza, latenza di coda ed emissioni di carbonio.
  • 4. GAR-PD è un algoritmo pratico di routing online primale-duale.
  • 5. I metodi di routing attuali raramente considerano l'uso sostenibile dell'energia e le emissioni di CO2.
  • 6. L'intensità di carbonio della rete varia in base al tempo e alla regione.
  • 7. I modelli differiscono significativamente nel consumo energetico.
  • 8. L'articolo è pubblicato su arXiv con ID 2605.11603.

Entità

Istituzioni

  • arXiv

Fonti