RPC-Bench: Benchmarking della Comprensione degli Articoli di Ricerca nell'IA
I ricercatori hanno presentato RPC-Bench, un benchmark completo per il question-answering volto a valutare la comprensione degli articoli di ricerca da parte dei modelli fondazionali. Derivato da dialoghi di revisione-replica di articoli di informatica di alta qualità, presenta 15.000 coppie QA verificate da esseri umani. Il benchmark utilizza una tassonomia dettagliata che si allinea al processo di ricerca scientifica per valutare i modelli su domande di perché, cosa e come. Un framework per l'annotazione delle interazioni LLM-umano facilita un'etichettatura estesa e garantisce il controllo qualità. La valutazione utilizza l'approccio LLM-as-a-Judge, misurando i modelli in base a correttezza, completezza e concisione, dimostrando una forte correlazione con le valutazioni umane. Gli esperimenti indicano che anche i modelli con le migliori prestazioni affrontano sfide con questo compito.
Fatti principali
- RPC-Bench è un benchmark per la comprensione degli articoli di ricerca
- Costruito da scambi di revisione-replica di articoli di informatica
- Contiene 15.000 coppie QA verificate da esseri umani
- Utilizza una tassonomia a grana fine allineata al flusso della ricerca scientifica
- Valuta domande di perché, cosa e come
- Impiega un framework di annotazione delle interazioni LLM-umano
- Valuta su correttezza, completezza e concisione
- Anche i modelli forti ottengono scarsi risultati su questo benchmark
Entità
Istituzioni
- arXiv