ARTFEED — Contemporary Art Intelligence

ReplaySCM: Test di Benchmark per l'Induzione di Meccanismi Causali da Interventi

ai-technology · 2026-05-12

ReplaySCM è composto da 1.300 elementi progettati per valutare l'induzione di meccanismi causali a partire da un insieme limitato di prove interventistiche. Ogni elemento si basa su mondi binari creati da un modello causale strutturale (SCM) booleano aciclico completamente osservato. I sistemi devono produrre una mappa di meccanismi in un DSL booleano vincolato, che viene poi analizzata, verificata per legalità e aciclicità, e testata su mondi di intervento sia di training che di held-out. Il punteggio si basa sul comportamento di replay, consentendo di riconoscere diversi meccanismi sintattici se si comportano correttamente. Il benchmark esplora varie divulgazioni di informazioni strutturali, tra cui le impostazioni Ordered, Block-order, Hidden-order e Hidden-roots, e presenta compiti Alternative-SCM che forniscono un SCM di riferimento valido mentre richiedono un'alternativa semanticamente distinta che si allinei con i mondi di training.

Fatti principali

  • ReplaySCM contiene 1.300 elementi.
  • Ogni elemento utilizza mondi binari da un SCM booleano aciclico latente.
  • L'output deve essere una mappa di meccanismi in un DSL booleano ristretto.
  • La sottomissione viene analizzata, verificata per legalità e aciclicità, e riprodotta.
  • Il punteggio si basa sul comportamento di replay, non sulle stringhe di formule.
  • Le impostazioni includono Ordered, Block-order, Hidden-order e Hidden-roots.
  • I compiti Alternative-SCM richiedono un SCM alternativo semanticamente distinto.
  • Il benchmark è stato introdotto su arXiv (2605.08197).

Entità

Istituzioni

  • arXiv

Fonti