ARTFEED — Contemporary Art Intelligence

Nuovo Quadro Quantifica il Pregiudizio di Autopreferenza nei Giudici LLM

ai-technology · 2026-04-29

Un nuovo quadro automatizzato quantifica e mitiga il Pregiudizio di Autopreferenza (SPB) nei sistemi LLM-as-a-Judge. L'SPB induce i LLM a favorire i propri output durante la valutazione, distorcendo l'allineamento dei modelli e le classifiche. I metodi esistenti si basano su costose annotazioni umane e confondono la capacità generativa con la posizione valutativa. Il quadro proposto costruisce coppie di risposte di pari qualità per separare statisticamente la discriminabilità dal pregiudizio senza standard di riferimento umani. Un'analisi empirica su 20 modelli convalida l'approccio.

Fatti principali

  • I sistemi LLM-as-a-Judge sono utilizzati per l'allineamento dei modelli, la costruzione di classifiche e il controllo qualità.
  • Il Pregiudizio di Autopreferenza (SPB) è una deviazione valutativa direzionale in cui i LLM favoriscono i propri output.
  • Le misurazioni esistenti dell'SPB si basano su costose annotazioni umane.
  • Il nuovo quadro è completamente automatizzato e non richiede standard di riferimento umani.
  • Costruisce coppie di risposte di pari qualità per separare la discriminabilità dalla propensione al pregiudizio.
  • L'analisi empirica è stata condotta su 20 modelli.
  • Il quadro mira a migliorare la scalabilità e l'affidabilità della valutazione automatizzata.
  • L'articolo è disponibile su arXiv con ID 2604.22891.

Entità

Istituzioni

  • arXiv

Fonti