ARTFEED — Contemporary Art Intelligence

L'apprendimento per rinforzo ottimizza il routing graduale dei modelli LLM per l'efficienza dei costi

ai-technology · 2026-05-09

Un nuovo preprint arXiv (2605.06116) introduce un approccio di apprendimento per rinforzo per il routing graduale dei modelli nei grandi modelli linguistici (LLM) al fine di bilanciare l'accuratezza del ragionamento e il costo di inferenza. Il metodo addestra una piccola politica di controllo utilizzando RL e calibrazione delle soglie, trattando il routing come un problema decisionale vincolato. Supera le strategie di routing artigianali sui benchmark matematici GSM8K, MATH500 e OmniMath, ottenendo un compromesso accuratezza-costo paragonabile sia per modelli aperti che chiusi.

Fatti principali

  • Il preprint arXiv 2605.06116 propone un routing graduale dei modelli guidato da politiche per LLM.
  • Il metodo utilizza l'apprendimento per rinforzo e la calibrazione delle soglie per ottimizzare l'efficienza dei costi.
  • Validato sui benchmark GSM8K, MATH500 e OmniMath.
  • Supera le strategie di routing artigianali.
  • Applicabile sia a modelli aperti che chiusi.
  • Formula il routing come un problema decisionale vincolato.
  • Evita di addestrare grandi modelli di ricompensa di processo.
  • Si concentra sul calcolo al momento dell'inferenza per compiti di ragionamento.

Entità

Istituzioni

  • arXiv

Fonti