MTRouter: Routing multi-turn LLM a consapevolezza dei costi con embedding congiunti storia-modello
Un nuovo sistema chiamato MTRouter affronta gli elevati costi di inferenza dei compiti multi-turno e a lungo orizzonte nei modelli linguistici di grandi dimensioni (LLM). Seleziona quale modello invocare a ogni turno da un pool, dato un budget di costo fisso, codificando la cronologia delle interazioni e i modelli candidati in embedding congiunti e apprendendo uno stimatore dei risultati da traiettorie registrate. Su ScienceWorld, MTRouter supera GPT-5 riducendo il costo totale del 58,7%. Su Humanity's Last Exam (HLE), raggiunge un'accuratezza competitiva con una riduzione dei costi del 43,4% rispetto a GPT-5. Questi guadagni si estendono a compiti non visti. La ricerca è pubblicata su arXiv (2604.23530).
Fatti principali
- MTRouter è un sistema di routing multi-turno per LLM a consapevolezza dei costi.
- Seleziona quale modello invocare a ogni turno da un pool di modelli.
- Utilizza embedding congiunti storia-modello e uno stimatore dei risultati.
- Su ScienceWorld, MTRouter supera GPT-5 con una riduzione dei costi del 58,7%.
- Su HLE, raggiunge un'accuratezza competitiva con una riduzione dei costi del 43,4%.
- I guadagni si estendono a compiti non visti.
- L'articolo è su arXiv con ID 2604.23530.
- I compiti multi-turno e a lungo orizzonte sono sempre più comuni per gli LLM.
Entità
Istituzioni
- arXiv