UniScale: Scaling dell'Inferenza Unificato per LLM tramite Routing Congiunto dei Modelli e Ottimizzazione a Tempo di Test

ai-technology · 2026-06-01

Un nuovo articolo su arXiv (2605.30898) introduce Unified Inference Scaling (UIS), un framework che ottimizza congiuntamente il routing dei modelli e lo scaling a tempo di test (TTS) per i modelli linguistici di grandi dimensioni (LLM). Gli approcci attuali trattano queste come dimensioni separate: il routing dei modelli passa tra modelli di diversa scala in base alla complessità della richiesta, mentre il TTS regola il calcolo all'interno di un modello fisso. Questo disaccoppiamento porta a cambiamenti di prestazioni grossolani dal routing e a rendimenti decrescenti dal TTS. UIS unifica entrambi i meccanismi in un unico problema di ottimizzazione, consentendo un'inferenza adattiva che bilancia qualità e costo in modo più efficace. Il metodo affronta le limitazioni negli ambienti di deployment dinamico, permettendo un controllo granulare su scale di modello e budget di calcolo simultaneamente.

Fatti principali

L'articolo arXiv:2605.30898 introduce Unified Inference Scaling (UIS).
UIS ottimizza congiuntamente il routing dei modelli e lo scaling a tempo di test (TTS).
Gli approcci esistenti trattano routing e TTS come dimensioni indipendenti.
Il routing dei modelli fornisce cambiamenti di prestazioni grossolani a causa delle scale di modello sparse.
Il TTS su un singolo modello incontra limiti di capacità e rendimenti decrescenti.
UIS mira a superare le limitazioni del design disaccoppiato.
Il framework è pensato per deployment reali di LLM che bilanciano qualità e costo dell'inferenza.
UIS consente un'inferenza adattiva in ambienti dinamici.

UniScale: Scaling dell'Inferenza Unificato per LLM tramite Routing Congiunto dei Modelli e Ottimizzazione a Tempo di Test

Fatti principali

Entità

Istituzioni

Fonti