Bench to the Future 2: Nuovo punto di riferimento per il ragionamento degli agenti di previsione
Un nuovo benchmark, Bench to the Future 2 (BTF-2), è stato introdotto per valutare il ragionamento strategico negli agenti di previsione. Comprende 1.417 domande di pastcasting abbinate a un corpus di ricerca congelato di 15 milioni di documenti, consentendo una ricerca e previsione riproducibili offline con tracce di ragionamento complete. BTF-2 può rilevare differenze di accuratezza fino a 0,004 nel punteggio Brier e distinguere tra i punti di forza degli agenti nella ricerca rispetto al giudizio. I ricercatori hanno costruito un previsore che è 0,011 Brier più accurato di qualsiasi singolo agente di frontiera, utilizzandolo per valutare il ragionamento strategico senza bias di retrospettiva. Il previsore superiore si differenzia principalmente nell'analisi pre-mortem dei punti ciechi e nella considerazione degli eventi del cigno nero. Previsori umani esperti hanno identificato che i fallimenti dominanti del ragionamento strategico degli agenti di frontiera risiedono nella valutazione degli incentivi dei leader politici e aziendali e nel giudicare la loro probabilità di mantenere gli impegni dichiarati.
Fatti principali
- BTF-2 include 1.417 domande di pastcasting.
- Il corpus di ricerca è congelato a 15 milioni di documenti.
- BTF-2 rileva differenze di accuratezza di 0,004 nel punteggio Brier.
- Il miglior previsore è 0,011 Brier più accurato di qualsiasi singolo agente di frontiera.
- Il previsore superiore eccelle nell'analisi pre-mortem dei punti ciechi e dei cigni neri.
- Gli agenti di frontiera falliscono nella valutazione degli incentivi dei leader e del loro seguito.
- Il benchmark consente ricerca e previsione riproducibili offline.
- BTF-2 distingue tra punti di forza nella ricerca e nel giudizio.
Entità
Istituzioni
- arXiv