Prosa: Valutazione basata su rubriche di LLM su chat reali di utenti in portoghese brasiliano

ai-technology · 2026-05-06

I ricercatori hanno presentato Prosa, il primo benchmark di chat multi-turno per utenti di portoghese brasiliano, con 1.000 conversazioni da WildChat. I risultati indicano che l'impiego di punteggi binari basati su rubriche con filtraggio multi-giudice rimuove efficacemente i bias associati ai modelli giudice, un limite osservato nella valutazione olistica. Con il punteggio basato su rubriche filtrato, è stato raggiunto il consenso tra tre giudici di diverse famiglie di modelli per tutti i 16 ranghi dei modelli, a fronte di soli 7 ranghi con la valutazione olistica. Inoltre, la pipeline di filtraggio aumenta la differenza media di punteggio tra modelli adiacenti del 47%, migliorando le capacità discriminative. Valutare un nuovo modello con Prosa costa circa $2,1 utilizzando Gemini 3 Flash come valutatore. Il benchmark e il codice di filtraggio sono stati resi pubblicamente disponibili.

Fatti principali

Prosa è il primo benchmark di chat multi-turno reale per utenti in portoghese brasiliano.
Include 1.000 conversazioni da WildChat.
Tre giudici di tre famiglie di modelli hanno valutato 16 modelli.
Il punteggio binario basato su rubriche con filtraggio multi-giudice raggiunge un accordo completo su tutti i 16 ranghi.
La valutazione olistica concorda solo su 7 dei 16 ranghi.
Il filtraggio basato su rubriche aumenta il divario medio di punteggio tra modelli vicini del 47%.
Il costo di valutazione è di circa $2,1 utilizzando Gemini 3 Flash.
Il benchmark e il codice di filtraggio sono stati rilasciati.

Entità

Istituzioni

arXiv

Luoghi

Brazil

Fonti

arXiv cs.AI — 2026-05-05