ARTFEED — Contemporary Art Intelligence

Artefatti di Valutazione Gonfiano l'Insolvibilità nel Routing Multi-LLM

ai-technology · 2026-05-11

Uno studio su larga scala del routing multi-livello LLM su 206.000 coppie query-modello rivela che i limiti di insolvibilità riportati sono in gran parte dovuti ad artefatti di valutazione. Utilizzando le famiglie Gemma 4 e Llama 3.1 su sei benchmark (MMLU, MedQA, HumanEval, MBPP, Alpaca, ShareGPT), i ricercatori hanno trovato bias sistematici del giudice che favoriscono la verbosità rispetto alla correttezza, troncamento sotto budget di generazione fissi e disallineamenti del formato di output. La validazione con doppio giudice e il grounding con corrispondenza esatta hanno ridotto l'insolvibilità misurata. Un framework di decomposizione attribuisce i fallimenti a questi artefatti, mostrando pattern coerenti.

Fatti principali

  • Lo studio coinvolge 206.000 coppie query-modello su sei benchmark
  • Utilizza le famiglie Gemma 4 e Llama 3.1
  • Valuta con LLM-as-a-judge e metriche di corrispondenza esatta
  • Identifica tre artefatti di valutazione: bias del giudice, troncamento, disallineamenti di formato
  • La validazione con doppio giudice e il grounding con corrispondenza esatta riducono l'insolvibilità
  • Introduce un framework di decomposizione per l'attribuzione dei fallimenti
  • Pubblicato su arXiv con ID 2605.07395
  • I benchmark includono MMLU, MedQA, HumanEval, MBPP, Alpaca, ShareGPT

Entità

Istituzioni

  • arXiv

Fonti