L'apprendimento per rinforzo ottimizza il routing graduale dei modelli LLM per l'efficienza dei costi
Un nuovo preprint arXiv (2605.06116) introduce un approccio di apprendimento per rinforzo per il routing graduale dei modelli nei grandi modelli linguistici (LLM) al fine di bilanciare l'accuratezza del ragionamento e il costo di inferenza. Il metodo addestra una piccola politica di controllo utilizzando RL e calibrazione delle soglie, trattando il routing come un problema decisionale vincolato. Supera le strategie di routing artigianali sui benchmark matematici GSM8K, MATH500 e OmniMath, ottenendo un compromesso accuratezza-costo paragonabile sia per modelli aperti che chiusi.
Fatti principali
- Il preprint arXiv 2605.06116 propone un routing graduale dei modelli guidato da politiche per LLM.
- Il metodo utilizza l'apprendimento per rinforzo e la calibrazione delle soglie per ottimizzare l'efficienza dei costi.
- Validato sui benchmark GSM8K, MATH500 e OmniMath.
- Supera le strategie di routing artigianali.
- Applicabile sia a modelli aperti che chiusi.
- Formula il routing come un problema decisionale vincolato.
- Evita di addestrare grandi modelli di ricompensa di processo.
- Si concentra sul calcolo al momento dell'inferenza per compiti di ragionamento.
Entità
Istituzioni
- arXiv