Artefatti di Valutazione Gonfiano l'Insolvibilità nel Routing Multi-LLM
Uno studio su larga scala del routing multi-livello LLM su 206.000 coppie query-modello rivela che i limiti di insolvibilità riportati sono in gran parte dovuti ad artefatti di valutazione. Utilizzando le famiglie Gemma 4 e Llama 3.1 su sei benchmark (MMLU, MedQA, HumanEval, MBPP, Alpaca, ShareGPT), i ricercatori hanno trovato bias sistematici del giudice che favoriscono la verbosità rispetto alla correttezza, troncamento sotto budget di generazione fissi e disallineamenti del formato di output. La validazione con doppio giudice e il grounding con corrispondenza esatta hanno ridotto l'insolvibilità misurata. Un framework di decomposizione attribuisce i fallimenti a questi artefatti, mostrando pattern coerenti.
Fatti principali
- Lo studio coinvolge 206.000 coppie query-modello su sei benchmark
- Utilizza le famiglie Gemma 4 e Llama 3.1
- Valuta con LLM-as-a-judge e metriche di corrispondenza esatta
- Identifica tre artefatti di valutazione: bias del giudice, troncamento, disallineamenti di formato
- La validazione con doppio giudice e il grounding con corrispondenza esatta riducono l'insolvibilità
- Introduce un framework di decomposizione per l'attribuzione dei fallimenti
- Pubblicato su arXiv con ID 2605.07395
- I benchmark includono MMLU, MedQA, HumanEval, MBPP, Alpaca, ShareGPT
Entità
Istituzioni
- arXiv