Rischio di Misurazione nei Benchmark NLP Finanziari: Sensibilità di Rubriche e Metriche
Un nuovo studio da arXiv (2604.27374) indaga il rischio di misurazione nel NLP finanziario supervisionato, concentrandosi sul benchmark giapponese per il riconoscimento di impegni impliciti finanziari (JF-ICR). La ricerca testa quattro LLM all'avanguardia su cinque rubriche, tre temperature e cinque metriche ordinali su una suddivisione di test di 253 elementi. I risultati chiave mostrano che la formulazione della rubrica altera significativamente le etichette assegnate dal modello, con un accordo tra rubriche che varia dal 70,0% all'83,4%. Il movimento dominante si verifica vicino al confine +1/0 dell'impegno implicito, suggerendo una sensibilità pragmatica al confine. Lo studio sfida l'assunzione che le etichette gold forniscano prove oggettive per la selezione e il dispiegamento del modello, evidenziando che i regoli di benchmark sono sensibili alla formulazione della rubrica, alla scelta della metrica e alla politica di aggregazione. Questo lavoro sottolinea la necessità di una progettazione attenta dei benchmark nelle applicazioni NLP finanziarie.
Fatti principali
- Lo studio esamina il rischio di misurazione nei benchmark NLP finanziari supervisionati.
- Si concentra sul dataset giapponese per il riconoscimento di impegni impliciti finanziari (JF-ICR).
- Testa 4 LLM all'avanguardia, 5 rubriche, 3 temperature, 5 metriche ordinali.
- Utilizza una suddivisione di test di 253 elementi per la valutazione.
- L'accordo tra rubriche varia dal 70,0% all'83,4%.
- Il movimento dominante delle etichette si verifica vicino al confine +1/0 dell'impegno implicito.
- Sfida l'assunzione che le etichette gold forniscano prove oggettive.
- Evidenzia la sensibilità alla formulazione della rubrica, alla scelta della metrica e alla politica di aggregazione.
Entità
Istituzioni
- arXiv