Artefatti di Valutazione Gonfiano l'Insolvibilità nel Routing Multi-LLM

ai-technology · 2026-05-11

Uno studio su larga scala del routing multi-livello LLM su 206.000 coppie query-modello rivela che i limiti di insolvibilità riportati sono in gran parte dovuti ad artefatti di valutazione. Utilizzando le famiglie Gemma 4 e Llama 3.1 su sei benchmark (MMLU, MedQA, HumanEval, MBPP, Alpaca, ShareGPT), i ricercatori hanno trovato bias sistematici del giudice che favoriscono la verbosità rispetto alla correttezza, troncamento sotto budget di generazione fissi e disallineamenti del formato di output. La validazione con doppio giudice e il grounding con corrispondenza esatta hanno ridotto l'insolvibilità misurata. Un framework di decomposizione attribuisce i fallimenti a questi artefatti, mostrando pattern coerenti.

Fatti principali

Lo studio coinvolge 206.000 coppie query-modello su sei benchmark
Utilizza le famiglie Gemma 4 e Llama 3.1
Valuta con LLM-as-a-judge e metriche di corrispondenza esatta
Identifica tre artefatti di valutazione: bias del giudice, troncamento, disallineamenti di formato
La validazione con doppio giudice e il grounding con corrispondenza esatta riducono l'insolvibilità
Introduce un framework di decomposizione per l'attribuzione dei fallimenti
Pubblicato su arXiv con ID 2605.07395
I benchmark includono MMLU, MedQA, HumanEval, MBPP, Alpaca, ShareGPT

Artefatti di Valutazione Gonfiano l'Insolvibilità nel Routing Multi-LLM

Fatti principali

Entità

Istituzioni

Fonti