LEAF: Un Benchmark Vivente per il Forecasting Event-Augmented con LLM
I ricercatori hanno introdotto LEAF, il primo benchmark vivente per compiti di forecasting potenziati da eventi, progettato per valutare i grandi modelli linguistici (LLM) in scenari complessi del mondo reale. LEAF supera le limitazioni dei benchmark esistenti che mancano di eventi multidimensionali o si concentrano su ambienti chiusi. Utilizza un sistema di agenti di recupero ricorsivo con convalida incrociata a doppio agente per fornire testo ausiliario rilevante per prevedere probabilità di eventi futuri, tendenze e serie temporali. Le valutazioni di LLM proprietari e open-weight all'avanguardia hanno mostrato che questi modelli possono sfruttare segnali da eventi complessi per migliorare le prestazioni predittive, in particolare nel dominio azionario.
Fatti principali
- LEAF è il primo benchmark vivente per il forecasting potenziato da eventi.
- Valuta gli LLM su probabilità di eventi futuri, previsioni di tendenze e serie temporali.
- Utilizza un sistema di agenti di recupero ricorsivo con convalida incrociata a doppio agente.
- Valuta LLM proprietari e open-weight all'avanguardia.
- Gli LLM possono sfruttare segnali da eventi complessi per migliorare le prestazioni predittive.
- Si concentra sul dominio azionario come una delle applicazioni.
- Pubblicato su arXiv con ID 2605.16358.
- Affronta la scarsità di dati e i problemi di ambiente chiuso nei benchmark esistenti.
Entità
Istituzioni
- arXiv