OracleProto: Un Framework Riproducibile per il Benchmarking delle Previsioni LLM
I ricercatori propongono OracleProto, un framework per valutare la capacità previsionale nativa dei LLM ricostruendo eventi risolti con cutoff della conoscenza e mascheramento temporale. Questo affronta la sfida di distinguere le previsioni genuine dai fatti memorizzati nei benchmark retrospettivi. Il framework mira a fornire una valutazione riproducibile per le previsioni, una capacità composita che collega raccolta di informazioni, integrazione di prove, giudizio e processo decisionale, richiesta in finanza, politica, industria e ricerca scientifica.
Fatti principali
- OracleProto è un framework riproducibile per il benchmarking delle previsioni native dei LLM.
- Ricostruisce eventi risolti in benchmark specifici per il tempo.
- Utilizza cutoff della conoscenza e mascheramento temporale per prevenire la fuga di dati.
- I benchmark live scadono una volta che gli eventi si risolvono, limitando la riproducibilità.
- I benchmark retrospettivi non possono distinguere le previsioni dai fatti memorizzati.
- Sollecitare i modelli a 'fingere di non sapere' è insufficiente.
- La previsione è una capacità composita che collega raccolta di informazioni, integrazione di prove, giudizio e processo decisionale.
- La domanda di previsioni esiste in finanza, politica, industria e ricerca scientifica.
Entità
—