OracleProto: Un Framework Riproducibile per il Benchmarking delle Previsioni LLM

ai-technology · 2026-05-07

I ricercatori propongono OracleProto, un framework per valutare la capacità previsionale nativa dei LLM ricostruendo eventi risolti con cutoff della conoscenza e mascheramento temporale. Questo affronta la sfida di distinguere le previsioni genuine dai fatti memorizzati nei benchmark retrospettivi. Il framework mira a fornire una valutazione riproducibile per le previsioni, una capacità composita che collega raccolta di informazioni, integrazione di prove, giudizio e processo decisionale, richiesta in finanza, politica, industria e ricerca scientifica.

Fatti principali

OracleProto è un framework riproducibile per il benchmarking delle previsioni native dei LLM.
Ricostruisce eventi risolti in benchmark specifici per il tempo.
Utilizza cutoff della conoscenza e mascheramento temporale per prevenire la fuga di dati.
I benchmark live scadono una volta che gli eventi si risolvono, limitando la riproducibilità.
I benchmark retrospettivi non possono distinguere le previsioni dai fatti memorizzati.
Sollecitare i modelli a 'fingere di non sapere' è insufficiente.
La previsione è una capacità composita che collega raccolta di informazioni, integrazione di prove, giudizio e processo decisionale.
La domanda di previsioni esiste in finanza, politica, industria e ricerca scientifica.

Entità

—

Fonti

arXiv cs.AI — 2026-05-06