LEAF: Un Benchmark Vivente per il Forecasting Event-Augmented con LLM

ai-technology · 2026-05-20

I ricercatori hanno introdotto LEAF, il primo benchmark vivente per compiti di forecasting potenziati da eventi, progettato per valutare i grandi modelli linguistici (LLM) in scenari complessi del mondo reale. LEAF supera le limitazioni dei benchmark esistenti che mancano di eventi multidimensionali o si concentrano su ambienti chiusi. Utilizza un sistema di agenti di recupero ricorsivo con convalida incrociata a doppio agente per fornire testo ausiliario rilevante per prevedere probabilità di eventi futuri, tendenze e serie temporali. Le valutazioni di LLM proprietari e open-weight all'avanguardia hanno mostrato che questi modelli possono sfruttare segnali da eventi complessi per migliorare le prestazioni predittive, in particolare nel dominio azionario.

Fatti principali

LEAF è il primo benchmark vivente per il forecasting potenziato da eventi.
Valuta gli LLM su probabilità di eventi futuri, previsioni di tendenze e serie temporali.
Utilizza un sistema di agenti di recupero ricorsivo con convalida incrociata a doppio agente.
Valuta LLM proprietari e open-weight all'avanguardia.
Gli LLM possono sfruttare segnali da eventi complessi per migliorare le prestazioni predittive.
Si concentra sul dominio azionario come una delle applicazioni.
Pubblicato su arXiv con ID 2605.16358.
Affronta la scarsità di dati e i problemi di ambiente chiuso nei benchmark esistenti.

LEAF: Un Benchmark Vivente per il Forecasting Event-Augmented con LLM

Fatti principali

Entità

Istituzioni

Fonti