Prosa: Valutazione basata su rubriche di LLM su chat reali di utenti in portoghese brasiliano
I ricercatori hanno presentato Prosa, il primo benchmark di chat multi-turno per utenti di portoghese brasiliano, con 1.000 conversazioni da WildChat. I risultati indicano che l'impiego di punteggi binari basati su rubriche con filtraggio multi-giudice rimuove efficacemente i bias associati ai modelli giudice, un limite osservato nella valutazione olistica. Con il punteggio basato su rubriche filtrato, è stato raggiunto il consenso tra tre giudici di diverse famiglie di modelli per tutti i 16 ranghi dei modelli, a fronte di soli 7 ranghi con la valutazione olistica. Inoltre, la pipeline di filtraggio aumenta la differenza media di punteggio tra modelli adiacenti del 47%, migliorando le capacità discriminative. Valutare un nuovo modello con Prosa costa circa $2,1 utilizzando Gemini 3 Flash come valutatore. Il benchmark e il codice di filtraggio sono stati resi pubblicamente disponibili.
Fatti principali
- Prosa è il primo benchmark di chat multi-turno reale per utenti in portoghese brasiliano.
- Include 1.000 conversazioni da WildChat.
- Tre giudici di tre famiglie di modelli hanno valutato 16 modelli.
- Il punteggio binario basato su rubriche con filtraggio multi-giudice raggiunge un accordo completo su tutti i 16 ranghi.
- La valutazione olistica concorda solo su 7 dei 16 ranghi.
- Il filtraggio basato su rubriche aumenta il divario medio di punteggio tra modelli vicini del 47%.
- Il costo di valutazione è di circa $2,1 utilizzando Gemini 3 Flash.
- Il benchmark e il codice di filtraggio sono stati rilasciati.
Entità
Istituzioni
- arXiv
Luoghi
- Brazil