TwinRouterBench: Un benchmark a livello di passo per il routing di LLM in compiti agentici
TwinRouterBench ha lanciato un benchmark innovativo volto a valutare come gli LLM gestiscono il routing per compiti complessi e a lungo termine come la programmazione e i sistemi di ricerca avanzati. A differenza dei benchmark esistenti che considerano solo singoli prompt e ignorano il processo seguito dagli agenti, questo offre una valutazione più completa. Include due tracce, con una traccia statica che presenta 970 prefissi visibili al router da 520 istanze provenienti da vari dataset come SWE-bench, BFCL, mtRAG, QMSum e PinchBench, i cui target di esecuzione sono stati confermati utilizzando una tecnica di downgrade e cascata. Il punteggio è coerente e prevedibile. Puoi trovare questa ricerca su arXiv.
Fatti principali
- TwinRouterBench è un benchmark di routing a livello di passo per il routing di LLM.
- Si rivolge ad applicazioni a lungo termine come agenti di programmazione e sistemi di ricerca approfondita.
- I benchmark di router esistenti valutano solo su prompt one-shot.
- La traccia statica include 970 prefissi visibili al router da 520 istanze.
- Le istanze provengono da SWE-bench, BFCL, mtRAG, QMSum e PinchBench.
- Ogni prefisso ha un target di livello verificato dall'esecuzione.
- Il punteggio è aritmetica deterministica su etichette di livello e appartenenza alla traiettoria.
- Il benchmark utilizza un protocollo di downgrade e cascata.
Entità
Istituzioni
- arXiv