ARTFEED — Contemporary Art Intelligence

Prosa: Valutazione basata su rubriche di LLM su chat reali di utenti in portoghese brasiliano

ai-technology · 2026-05-06

I ricercatori hanno presentato Prosa, il primo benchmark di chat multi-turno per utenti di portoghese brasiliano, con 1.000 conversazioni da WildChat. I risultati indicano che l'impiego di punteggi binari basati su rubriche con filtraggio multi-giudice rimuove efficacemente i bias associati ai modelli giudice, un limite osservato nella valutazione olistica. Con il punteggio basato su rubriche filtrato, è stato raggiunto il consenso tra tre giudici di diverse famiglie di modelli per tutti i 16 ranghi dei modelli, a fronte di soli 7 ranghi con la valutazione olistica. Inoltre, la pipeline di filtraggio aumenta la differenza media di punteggio tra modelli adiacenti del 47%, migliorando le capacità discriminative. Valutare un nuovo modello con Prosa costa circa $2,1 utilizzando Gemini 3 Flash come valutatore. Il benchmark e il codice di filtraggio sono stati resi pubblicamente disponibili.

Fatti principali

  • Prosa è il primo benchmark di chat multi-turno reale per utenti in portoghese brasiliano.
  • Include 1.000 conversazioni da WildChat.
  • Tre giudici di tre famiglie di modelli hanno valutato 16 modelli.
  • Il punteggio binario basato su rubriche con filtraggio multi-giudice raggiunge un accordo completo su tutti i 16 ranghi.
  • La valutazione olistica concorda solo su 7 dei 16 ranghi.
  • Il filtraggio basato su rubriche aumenta il divario medio di punteggio tra modelli vicini del 47%.
  • Il costo di valutazione è di circa $2,1 utilizzando Gemini 3 Flash.
  • Il benchmark e il codice di filtraggio sono stati rilasciati.

Entità

Istituzioni

  • arXiv

Luoghi

  • Brazil

Fonti