ARTFEED — Contemporary Art Intelligence

LEAF: Un Benchmark Vivente per il Forecasting Event-Augmented con LLM

ai-technology · 2026-05-20

I ricercatori hanno introdotto LEAF, il primo benchmark vivente per compiti di forecasting potenziati da eventi, progettato per valutare i grandi modelli linguistici (LLM) in scenari complessi del mondo reale. LEAF supera le limitazioni dei benchmark esistenti che mancano di eventi multidimensionali o si concentrano su ambienti chiusi. Utilizza un sistema di agenti di recupero ricorsivo con convalida incrociata a doppio agente per fornire testo ausiliario rilevante per prevedere probabilità di eventi futuri, tendenze e serie temporali. Le valutazioni di LLM proprietari e open-weight all'avanguardia hanno mostrato che questi modelli possono sfruttare segnali da eventi complessi per migliorare le prestazioni predittive, in particolare nel dominio azionario.

Fatti principali

  • LEAF è il primo benchmark vivente per il forecasting potenziato da eventi.
  • Valuta gli LLM su probabilità di eventi futuri, previsioni di tendenze e serie temporali.
  • Utilizza un sistema di agenti di recupero ricorsivo con convalida incrociata a doppio agente.
  • Valuta LLM proprietari e open-weight all'avanguardia.
  • Gli LLM possono sfruttare segnali da eventi complessi per migliorare le prestazioni predittive.
  • Si concentra sul dominio azionario come una delle applicazioni.
  • Pubblicato su arXiv con ID 2605.16358.
  • Affronta la scarsità di dati e i problemi di ambiente chiuso nei benchmark esistenti.

Entità

Istituzioni

  • arXiv

Fonti