ARTFEED — Contemporary Art Intelligence

Affidabilità del LLM come giudice valutata tramite la Teoria della Risposta all'Item

ai-technology · 2026-06-01

Un nuovo quadro diagnostico basato sulla Teoria della Risposta all'Item (IRT) valuta l'affidabilità dei LLM come giudici nella valutazione automatica. Il framework a due fasi, basato sul Modello di Risposta Graduata (GRM), misura la coerenza intrinseca sotto variazioni di prompt e l'allineamento umano con valutazioni di qualità. Test empirici su diversi giudici LLM mostrano che IRT-GRM fornisce segnali interpretabili per la diagnosi sistematica dei giudizi, offrendo indicazioni pratiche per verificare l'affidabilità. Lo studio è pubblicato su arXiv con ID 2602.00521.

Fatti principali

  • Il framework utilizza la Teoria della Risposta all'Item (IRT) per valutare l'affidabilità del LLM come giudice.
  • Quadro diagnostico a due fasi: coerenza intrinseca e allineamento umano.
  • Basato sul Modello di Risposta Graduata (GRM) dell'IRT.
  • La coerenza intrinseca misura la stabilità sotto variazioni di prompt.
  • L'allineamento umano cattura la corrispondenza con le valutazioni di qualità umane.
  • Esame empirico di diversi giudici LLM.
  • IRT-GRM produce segnali interpretabili per diagnosticare i giudizi.
  • Pubblicato su arXiv con ID 2602.00521.

Entità

Istituzioni

  • arXiv

Fonti