OrcaRouter: Router LLM ibrido raggiunge un punteggio Arena di 72.08
I ricercatori hanno presentato OrcaRouter, un nuovo router per modelli linguistici di grandi dimensioni progettato per l'uso in produzione. Utilizza un sistema contestuale a banditi basato su LinUCB che impiega tecniche sia lessicali che di embedding di frasi. Il modello opera con una strategia di apprendimento ibrida, combinando metodi offline e online. Inizialmente, durante la fase offline, OrcaRouter valuta ciascun modello candidato su un insieme appositamente curato di prompt di routing per raccogliere feedback dettagliati, formando una matrice di ricompensa che aiuta ad addestrare un regressore ridge per ogni opzione. Una volta in azione, utilizza questi parametri iniziali e si adatta in base al feedback, aggiornando solo il braccio del modello selezionato. Il 20 maggio 2026, OrcaRouter-Adaptive ha raggiunto il secondo posto in RouterArena con un punteggio di 72.08 e una precisione del 75.54%.
Fatti principali
- OrcaRouter è un router LLM orientato alla produzione
- Utilizza un bandito contestuale basato su LinUCB su caratteristiche lessicali e di embedding di frasi
- Adotta un protocollo di apprendimento ibrido offline-online
- L'addestramento offline valuta ciascun modello candidato su prompt di routing curati
- Genera una matrice di ricompensa per addestrare un regressore ridge per ogni braccio
- In fase di implementazione, si inizializza dai parametri offline e può continuare ad apprendere
- OrcaRouter-Adaptive si è classificato secondo nella classifica di RouterArena al 20 maggio 2026
- Ha raggiunto un punteggio arena di 72.08 e una precisione del 75.54%
Entità
Istituzioni
- arXiv
- RouterArena